Біографії Характеристики Аналіз

Множинна регресія приклад. Введення у множинну регресію

Матеріал буде проілюстрований наскрізним прикладом: прогнозування обсягів продажу компанії OmniPower.Уявіть собі, що ви - менеджер з маркетингу у великій національній мережі бакалійних магазинів. У Останніми рокамина ринку з'явилися поживні батончики, що містять велика кількістьжирів, вуглеводів та калорій. Вони дозволяють швидко відновити запаси енергії, витраченої бігунами, альпіністами та іншими спортсменами на виснажливих тренуваннях та змаганнях. За останні роки обсяг продажів поживних батончиків різко зріс, і керівництво компанії OmniPower дійшло висновку, що цей сегмент ринку досить перспективний. Перш ніж пропонувати новий вид батончика на загальнонаціональному ринку, компанія хотіла б оцінити вплив його вартості та рекламних витрат на обсяг продажу. Для маркетингового дослідження було відібрано 34 магазини. Вам необхідно створити регресійну модель, що дозволяє проаналізувати дані, отримані під час дослідження. Чи можна застосувати для цього модель простої лінійної регресії, розглянуту в попередній статті? Як її слід змінити?

Модель множинної регресії

Для маркетингового дослідження в компанії OmniPower було створено вибірку, що складається з 34 магазинів із приблизно однаковими обсягами продажів. Розглянемо дві незалежні змінні - ціна батончика OmniPower у центах ( Х 1) та місячний бюджет рекламної кампанії, що проводиться в магазині, виражений у доларах ( Х 2). До цього бюджету входять витрати на оформлення вивісок та вітрин, а також на роздачу купонів та безкоштовних зразків. Залежна змінна Yє кількість батончиків OmniPower, проданих за місяць (рис. 1).

Рис. 1. Місячний обсяг продажу батончиків OmniPower, їх ціна та витрати на рекламу

Завантажити нотатку у форматі або , приклади у форматі

Інтерпретація регресійних коефіцієнтів.Якщо в задачі досліджуються кілька пояснюючих змінних, модель простої лінійної регресії можна розширити, припускаючи, що між відгуком і кожною з незалежних змінних існує лінійна залежність. Наприклад, за наявності kпояснюючих змінних модель множинної лінійної регресії набуває вигляду:

(1) Y i = β 0 + β 1 X 1i + β 2 X 2i + … + β k X ki + ε i

де β 0 - Зсув, β 1 - нахил прямий Y, що залежить від змінної Х 1, якщо змінні Х 2, Х 3, …, Х kє константами, β 2 - нахил прямий Y, що залежить від змінної Х 2, якщо змінні Х 1, Х 3, …, Х kє константами, β k- нахил прямий Y, що залежить від змінної Х k, якщо змінні Х 1, Х 2, …, Х k-1є константами, ε i Yв i-м спостереженні.

Зокрема, модель множинної регресії з двома змінними, що пояснюють:

(2) Y i = β 0 + β 1 X 1 i + β 2 X 2 i + ε i

де β 0 - Зсув, β 1 - нахил прямий Y, що залежить від змінної Х 1, якщо змінна Х 2є константою, β 2 - нахил прямий Y, що залежить від змінної Х 2, якщо змінна Х 1є константою, ε i- випадкова помилка змінної Yв i-м спостереженні.

Порівняємо цю модель множинної лінійної регресії та модель простої лінійної регресії: Y i = β 0 + β 1 X i + ε i. У моделі простої лінійної регресії нахил β 1 Yпри зміні значення змінної X на одиницю і враховує вплив інших чинників. У моделі множинної регресії з двома незалежними змінними (2) нахил β 1 є зміною середнього значення змінної Yпри зміні значення змінної X 1на одиницю з урахуванням впливу змінної Х 2. Ця величина називається коефіцієнтом чистої регресії (або приватної регресії).

Як і в моделі простої лінійної регресії, вибіркові регресійні коефіцієнти b 0 , b 1 , і b 2 є оцінками параметрів відповідної генеральної сукупності β 0 , β 1 і β 2 .

Рівняння множинної регресії з двома незалежними змінними:

(3) = b 0 + b 1 X 1 i + b 2 X 2 i

Для обчислення коефіцієнтів регресії використовується метод найменших квадратів. В Excel можна скористатися Пакетом аналізу, опцією Регресія. На відміну від побудови лінійної регресії, просто задайте як Вхідного інтервалу Хобласть, що включає усі незалежні змінні (рис. 2). У нашому прикладі це $C$1:$D$35.

Рис. 2. Вікно Регресія Пакету аналізу Excel

Результати роботи Пакету аналізу представлені на рис. 3. Як бачимо, b 0 = 5 837,52, b 1 = -53,217 та b 2 = 3,163. Отже, = 5 837,52 –53,217 X 1 i + 3,163 X 2 i, де Ŷ i- передбачений обсяг продажів поживних батончиків OmniPower в i-му магазині (штук), Х 1i- ціна батончика (у центах) i-му магазині, Х 2i- щомісячні витрати на рекламу в i-му магазині (у доларах).

Рис. 3. Множинна регресія дослідження обсяг продаж батончиків OmniPower

Вибірковий нахил b 0 дорівнює 5837,52 і є оцінкою середньої кількості батончиків OmniPower, проданих за місяць при нульовій ціні та відсутності витрат на рекламу. Оскільки ці умови позбавлені сенсу, у цій ситуації величина нахилу b 0немає розумної інтерпретації.

Вибірковий нахил b 1 дорівнює -53,217. Це означає, що при заданому щомісячному обсязі витрат на рекламу, збільшення ціни батончика на один цент призведе до зниження очікуваного обсягу продажів на 53,217 штук. Аналогічно вибірковий нахил b 2 , рівний 3,613, означає, що при фіксованою ціноюзбільшення щомісячних рекламних витрат за один долар супроводжується збільшенням очікуваного обсягу продажу батончиків на 3,613 прим. Ці оцінки дозволяють краще зрозуміти вплив ціни та реклами на обсяг продажу. Наприклад, при фіксованому обсязі витрат за рекламу зменшення ціни батончика на 10 центів збільшить обсяг продажу на 532,173 прим., а за фіксованою ціною батончика збільшення рекламних витрат за 100 дол. збільшить обсяг продажу на 361,31 прим.

Інтерпретація нахилів у моделі множинної регресії.Коефіцієнти моделі множинної регресії називаються коефіцієнтами чистої регресії. Вони оцінюють середню зміну відгуку Yпри зміні величини Xна одиницю, якщо інші пояснюють змінні «заморожені». Наприклад, у задачі про батончиків OmniPower магазин з фіксованим обсягом рекламних витрат за місяць продасть на 53,217 батончика менше, якщо збільшить їхню вартість на один цент. Можлива ще одна інтерпретація цих коефіцієнтів. Уявіть собі однакові магазини з однаковим обсягом рекламних витрат. При зменшенні ціни на один цент батончика обсяг продажів у цих магазинах збільшиться на 53,217 батончика. Розглянемо тепер два магазини, де батончики стоять однаково, але витрати на рекламу відрізняються. У разі збільшення цих витрат на один долар обсяг продажів у цих магазинах збільшиться на 3,613 штук. Як бачимо, розумна інтерпретація нахилів можлива лише за певних обмежень, накладених на пояснюючі змінні.

Пророцтво значень залежної змінної Y.З'ясувавши, що накопичені дані дозволяють використовувати модель множинної регресії, ми можемо прогнозувати щомісячний обсяг продажів батончиків OmniPower та побудувати довірчі інтервали для середнього та передбаченого обсягів продажів. Для того, щоб передбачити середній щомісячний обсяг продажів батончиків OmniPower за ціною 79 центів у магазині, що витрачає на рекламу 400 дол. на місяць, слід застосувати рівняння множинної регресії: Y = 5 837,53 - 53,2173 * 79 = 3079. Отже, очікуваний обсяг продажів у магазинах, що торгують батончиками OmniPower за ціною 79 центів і витрачають на рекламу 400 дол. на місяць, дорівнює 3079 шт.

Обчисливши величину Yта оцінивши залишки, можна побудувати довірчі інтервали, що містять математичне очікуваннята передбачене значення відгуку. ми розглянули цю процедуру у рамках моделі простої лінійної регресії. Проте побудова аналогічних оцінок моделі множинної регресії пов'язані з великими обчислювальними труднощами і тут не наводиться.

Коефіцієнт множинної змішаної кореляції.Нагадаємо, що модель регресії дозволяє обчислити коефіцієнт змішаної кореляції. r 2. Оскільки в моделі множинної регресії існують принаймні дві пояснюючі змінні, коефіцієнт множинної змішаної кореляції є частка варіації змінної Y, що пояснюється заданим набором змінних, що пояснюють:

де SSR- Сума квадратів регресії, SSTповна сумаквадратів.

Наприклад, у задачі про продаж батончика OmniPower SSR = 39 472 731, SST= 52093677 і k = 2. Таким чином,

Це означає, що 75,8% варіації обсягів продажу пояснюється змінами цін та коливаннями обсягів витрат на рекламу.

Аналіз залишків для моделі множинної регресії

Аналіз залишків дозволяє визначити, чи можна застосовувати модель множинної регресії з двома (або більше) перемінними, що пояснюють. Як правило, проводять наступні видианалізу залишків:

Перший графік (рис. 4а) дозволяє проаналізувати розподіл залишків залежно від передбачених значень. Якщо величина залишків не залежить від передбачених значень і набуває як позитивних так і від'ємні значення(як у нашому прикладі), умова лінійної залежності змінної Yвід обох пояснюючих змінних виконується. На жаль, у Пакет аналізуцей графік чомусь не створюється. Можна у вікні Регресія(див. рис. 2) увімкнути Залишки. Це дозволить вивести таблицю із залишками, а вже по ній збудувати точковий графік(Рис. 4).

Рис. 4. Залежність залишків від передбаченого значення

Другий і третій графік демонструють залежність залишків від змінних, що пояснюють. Ці графіки можуть виявити квадратичний ефект. У цій ситуації необхідно додати в модель множинної регресії квадрат, що пояснює змінну. Ці графіки виводяться Пакетом аналізу (див. рис. 2), якщо увімкнути опцію Графік залишків (рис. 5).

Рис. 5. Залежність залишків від ціни та витрат на рекламу

Перевірка значимості моделі множинної регресії.

Переконавшись за допомогою аналізу залишків, що модель лінійної множинної регресії є адекватною, можна визначити, чи існує статистично значущий взаємозв'язок між залежною змінною та набором змінних, що пояснюють. Оскільки в модель входить кілька пояснюючих змінних, нульова та альтернативна гіпотези формулюються наступним чином: Н 0: β 1 = β 2 = … = β k = 0 (між відгуком та пояснювальними змінними немає лінійної залежності), Н 1: існує принаймні одне значення β j ≠ 0 (між відгуком і хоча б однією пояснювальною змінною існує лінійна залежність).

Для перевірки нульової гіпотези застосовується F-критерій – тестова F-статистика дорівнює середньому квадрату, обумовленому регресією (MSR), поділеному на дисперсію помилок (MSE):

де F F-розподіл з kі n – k – 1ступенями свободи, k –кількість незалежних змінних у регресійній моделі.

Вирішальне правило виглядає так: при рівні значимості нульова гіпотеза Н 0відхиляється, якщо F > F U (k, n – k – 1), інакше гіпотеза Н 0 не відхиляється (рис. 6).

Рис. 6. Зведена таблиця дисперсійного аналізу для перевірки гіпотези про статистичної значимостікоефіцієнтів множинної регресії

Зведена таблиця дисперсійного аналізу, заповнена з використанням Пакет аналізу Excel при вирішенні задачі про продаж батончиків OmniPower показана на рис. 3 (див. область А10: F14). Якщо рівень значущості дорівнює 0,05, критичне значення F-розподілу з двома та 31 ступенями свободи F U(2,31)= F.ОБР (1-0,05; 2; 31) = дорівнює 3,305 (рис. 7).

Рис. 7. Перевірка гіпотези про значимість коефіцієнтів регресії при рівні значущості α = 0,05, з 2 та 31 ступенями свободи

Як показано на рис. 3, F-статистика дорівнює 48,477> F U(2,31)= 3,305, а p-значення близько 0,000< 0,05. Следовательно, нулевая гипотеза Н 0 отклоняется, и объем продаж линейно связан хотя бы с одной из объясняющих переменных (ценой и/или затратами на рекламу).

Статистичні висновки про генеральну сукупність коефіцієнтів регресії

Щоб виявити статистично значущу залежність між змінними Xі Yу моделі простої лінійної регресії, було виконано перевірку гіпотези про нахилі. Крім того, для оцінки нахилу генеральної сукупності було побудовано довірчий інтервал(Див. ).

Перевірка гіпотез.Для перевірки гіпотези, яка стверджує, що нахил генеральної сукупності β 1 у моделі простої лінійної регресії дорівнює нулю, використовується формула t = (b 1 – β 1)/S b 1 . Її можна поширити на модель множинної регресії:

де t– тестова статистика, що має t-розподіл з n – k – 1ступенями свободи, b j- нахил змінної хjпо відношенню до змінної Yякщо всі інші пояснюючі змінні є константами, S bj- Середньоквадратична помилка регресійного коефіцієнта b j, k- кількість пояснюючих змінних у рівнянні регресії, β j - гіпотетичний нахил генеральної сукупності відгуків j-й щодо змінної, коли решта змінні фіксовані.

На рис. 3 (нижня таблиця) показані результати застосування t-критерію (отримані за допомогою Пакет аналізу) для кожної з незалежних змінних, включених до регресійної моделі. Таким чином, якщо необхідно визначити, чи надає змінна Х 2(витрати на рекламу) суттєвий вплив на обсяг продажу за фіксованою ціною батончика OmniPower, формулюються нульова та альтернативна гіпотези: Н 0: β2 = 0, Н 1: β2 ≠ 0. Відповідно до формули (6) отримуємо:

Якщо рівень значущості дорівнює 0,05, критичними значеннями t-розподілу з 31 ступенями свободи є t L = СТЬЮДЕНТ.ОБР(0,025;31) = -2,0395 і t U = СТЬЮДЕНТ.ОБР(0,975;31) = 2,0395 (рис. 8). р-значення = 1-СТЬЮДЕНТ.РАСП (5,27; 31; ІСТИНА) і близько до 0,0000. На підставі однієї з нерівностей t= 5,27> 2,0395 або р = 0,0000 < 0,05 нулевая гипотеза Н 0відхиляється. Отже, при фіксованій ціні батончика між змінною Х 2(Витрати на рекламу) та обсягом продажів існує статистично значуща залежність. Таким чином, існує надзвичайно мала ймовірність відкинути нульову гіпотезу, Якщо між витратами на рекламу та обсягами продажів немає лінійної залежності.

Рис. 8. Перевірка гіпотези про значущість коефіцієнтів регресії при рівні значущості α = 0,05, з 31 ступенем свободи

Перевірка значимості конкретних коефіцієнтів регресії фактично є перевірку гіпотези про значущість конкретної змінної, включеної до регресійної моделі поряд з іншими. Отже, t-Критерій для перевірки гіпотези про значущість регресійного коефіцієнта еквівалентний перевірці гіпотези про вплив кожної з пояснюючих змінних.

Довірчі інтервали.Замість перевірки гіпотези про нахилі генеральної сукупності можна оцінити значення цього нахилу. У моделі множинної регресії для побудови довірчого інтервалу використовується формула:

(7) b j ± t nk –1 S bj

Скористаємося цією формулою для того, щоб побудувати 95% довірчий інтервал, що містить нахил генеральної сукупності β 1 (вплив ціни X 1на обсяг продажу Yпри фіксованому обсязі витрат на рекламу Х 2). За формулою (7) отримуємо: b 1 ± t nk –1 S b 1 . Оскільки b 1 = -53,2173 (див. рис. 3), S b 1 = 6,8522, критичне значення t-статистики при 95%-ном довірчому рівніта 31 ступеня свободи t nk –1 =СТЬЮДЕНТ.ОБР(0,975;31) = 2,0395, отримуємо:

-53,2173 ± 2,0395 * 6,8522

-53,2173 ± 13,9752

–67,1925 ≤ β 1 ≤ –39,2421

Таким чином, враховуючи ефект витрат на рекламу, можна стверджувати, що зі збільшенням ціни батончика на один цент обсяг продажу зменшується на величину, яка коливається від 39,2 до 67,2 шт. Існує 95% ймовірність, що цей інтервал правильно оцінює залежність між двома змінними. Оскільки цей довірчий інтервал не містить нуля, можна стверджувати, що регресійний коефіцієнт 1 має статистично значущий вплив на обсяг продажів.

Оцінка значущості змінних, що пояснюють, у моделі множинної регресії

У модель множинної регресії слід включати ті пояснюючі змінні, які дозволяють точно передбачити значення залежної змінної. Якщо яка-небудь із змінних, що пояснюють, не відповідає цій вимогі, її потрібно видалити з моделі. Як альтернативний метод, що дозволяє оцінити внесок пояснюючої змінної, як правило, застосовується приватний F-Критерій. Він полягає в оцінці зміни суми квадратів регресії після включення до моделі чергової змінної. Нова змінна включається до моделі лише тоді, коли це призводить до значного збільшення точності передбачення.

Для того, щоб застосувати приватний F-критерій для вирішення завдання про продаж батончика OmniPower, необхідно оцінити внесок змінної Х 2(Витрати на рекламу) після включення в модель змінної X 1(ціна батончика). Якщо в модель входять кілька змінних, що пояснюють, внесок пояснюючої змінної хjможна визначити, виключивши її з моделі і оцінивши суму квадратів регресії (SSR), обчислену за змінними, що залишилися. Якщо модель входять дві змінні, внесок кожної їх визначається по формулам:

Оцінка вкладу змінної Х 1 Х 2:

(8а) SSR(X 1 |Х 2) = SSR(X 1 і Х 2) - SSR(X 2)

Оцінка вкладу змінної Х 2за умови, що в модель включено змінну Х 1:

(8б) SSR(X 2 |Х 1) = SSR(X 1 і Х 2) - SSR(X 1)

Величини SSR(X 2)і SSR(X 1) відповідно являють собою суми квадратів регресії, обчислених тільки по одній з змінних, що пояснюються (рис. 9).

Рис. 9. Коефіцієнти моделі простої лінійної регресії, яка враховує: (а) обсяг продажу та ціну батончика – SSR(X 1); (б) обсяг продажу та витрати на рекламу – SSR(X 2)(отримані за допомогою Пакету аналізу Excel)

Нульова та альтернативна гіпотези про внесок змінної Х 1формулюються так: Н 0- Увімкнення змінної Х 1не призводить до значного збільшення точності моделі, в якій враховується змінна Х 2; Н 1- Увімкнення змінної Х 1призводить до значного збільшення точності моделі, в якій враховано змінну Х 2. Статистика, покладена основою приватного F-критерію для двох змінних, обчислюється за формулою:

де MSE- Дисперсія помилки (залишку) для двох факторів одночасно. За визначенням F-статистика має F-розподіл з одного та n–k–1ступенями свободи.

Отже, SSR(X 2)= 14915814 (рис. 9), SSR(X 1 і Х 2)= 39472731 (рис. 3, осередок С12). Отже, за формулою (8а) отримуємо: SSR(X 1 |Х 2) = SSR(X 1 і Х 2) - SSR(X 2) = 39472731 - 14915814 = 24556917. Отже, для SSR(X 1 |Х 2) = 24 556 917 та MSE (X 1 та Х 2) = 407 127 (рис. 3, осередок D13), використовуючи формулу (9), отримуємо: F= 24556917 / 407127 = 60,32. Якщо рівень значимості дорівнює 0,05, то критичне значення F-розподілу з одним і 31 ступенями свободи = F.ОБР (0,95; 1; 31) = 4,16 (рис. 10).

Рис. 10. Перевірка гіпотези про значущість коефіцієнтів регресії при рівні значимості, що дорівнює 0,05, з одним і 31 ступенями свободи

Оскільки обчислене значення F-статистики більше критичного (60,32> 4,17), гіпотеза Н 0відхиляється, отже, облік змінної Х 1(ціни) значно покращує модель регресії, до якої вже включено змінну Х 2(Витрати на рекламу).

Аналогічно можна оцінити вплив змінної Х 2(Витрати на рекламу) на модель, в яку вже включена змінна Х 1(ціна). Проведіть обчислення самостійно. Вирішальна умова призводить до того, що 27,8 > 4,17, а отже, включення змінної Х 2також призводить до значного збільшення точності моделі, в якій враховується змінна Х1. Отже, включення кожної із змінних підвищує точність моделі. Отже, до моделі множинної регресії необхідно включити обидві змінні: і ціну, і витрати на рекламу.

Цікаво, що значення t-статистики, обчислене за формулою (6), та значення приватної F-статистики, заданою формулою(9), однозначно взаємопов'язані:

де а- кількість ступенів волі.

Регресійні моделі з фіктивною змінною та ефекти взаємодії

Обговорюючи моделі множинної регресії, ми припускали, що кожна незалежна змінна є числовою. Однак у багатьох ситуаціях модель необхідно включати категорійні змінні. Наприклад, у задачі про продаж батончиків OmniPower для передбачення середньомісячного обсягу продажів використовувалися ціна та витрати на рекламу. Крім цих числових змінних, можна спробувати врахувати моделі розташування товару всередині магазину (наприклад, на вітрині чи ні). Щоб врахувати в регресійній моделі категорійні змінні, слід включити до неї фіктивні змінні. Наприклад, якщо якась категорійна змінна, що пояснює, має дві категорії, для їх представлення достатньо однієї фіктивної змінної. Xd: X d= 0, якщо спостереження належить першій категорії, X d= 1, якщо спостереження належить другий категорії.

Для ілюстрації фіктивних змінних розглянемо модель для передбачення середньої оцінної вартості нерухомості на основі вибірки з 15 будинків. Як пояснюють змінних виберемо житлову площу будинку (тис. кв. футів) та наявність каміна (рис. 11). Фіктивна змінна Х 2(Наявність каміна) визначена наступним чином: Х 2= 0, якщо каміна в будинку немає, Х 2= 1, якщо у будинку є камін.

Рис. 11. Оцінна вартість, передбачена за житловою площею та наявністю каміна

Припустимо, що нахил оцінної вартості, яка залежить від житлової площі, однаковий у будинків, що мають камін і не мають його. Тоді модель множинної регресії виглядає так:

Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i

де Y i- оціночна вартість i-го будинку, виміряна в тисяч доларів, β 0 - Зсув відгуку, X 1i,- житлова площа i-го будинку, виміряна в тис. кв. футів, β 1 - нахил оцінної вартості, яка залежить від житлової площі будинку при постійному значенні фіктивної змінної, X 1i,- фіктивна змінна, що означає наявність або відсутність каміна, β 1 - нахил оцінної вартості, яка залежить від житлової площі будинку при постійному значенні фіктивної змінної β 2 - ефект збільшення оцінної вартості будинку в залежності від наявності каміна при постійній величиніжитлової площі, ε i– випадкова помилка оцінної вартості i-го будинку. Результати обчислення регресійної моделі представлені на рис. 12.

Рис. 12. Результати обчислення регресійної моделі для оцінної вартості будинків; отримані за допомогою Пакет аналізув Excel; для розрахунку використано таблицю, аналогічну рис. 11, з єдиною зміною: «Так» замінені одиницями, а «Ні» – нулями

У цій моделі коефіцієнти регресії інтерпретуються так:

  1. Якщо фіктивна змінна має незмінне значення, збільшення житлової площі на 1000 кв. футів призводить до збільшення передбаченої середньої оцінної вартості на 16,2 тис. дол.
  2. Якщо житлова площа стала, наявність каміна збільшує середню оцінну вартість будинку на 3,9 тис. дол.

Зверніть увагу (рис. 12), t-статистика, що відповідає житловій площі, дорівнює 6,29, а р-значення майже дорівнює нулю. В той же час t-статистика, що відповідає фіктивній змінній, дорівнює 3,1, а p-значення - 0,009. Таким чином, кожна з цих двох змінних робить істотний внесок у модель, якщо рівень значущості дорівнює 0,01. Крім того, коефіцієнт множинної змішаної кореляції означає, що 81,1% варіації оцінної вартості пояснюється мінливістю житлової площі будинку та наявністю каміна.

Ефект взаємодії.У всіх регресійних моделях, розглянутих вище, вважалося, що вплив відгуку на змінну, що пояснює, є статистично незалежним від впливу відгуку на інші пояснюючі змінні. Якщо ця умова не виконується, виникає взаємодія між залежними змінними. Наприклад, цілком імовірно, що реклама дуже впливає на обсяг продажу товарів, що мають низьку ціну. Однак, якщо ціна товару надто висока, збільшення витрат на рекламу не може суттєво підвищити обсяг продажу. У цьому випадку спостерігається взаємодія між ціною товару та витратами на його рекламу. Інакше висловлюючись, не можна робити загальних тверджень про залежність обсягу продажу від витрат за рекламу. Вплив рекламних витрат обсяг продажів залежить від ціни. Цей вплив враховується у моделі множинної регресії за допомогою ефекту взаємодії. Для ілюстрації цього поняття повернемося до завдання вартості будинків.

У розробленій нами регресійній моделі передбачалося, вплив розміру будинку на його вартість не залежить від того, чи є в будинку камін. Інакше висловлюючись, вважалося, що нахил оцінної вартості, що залежить від житлової площі будинку, однаковий у будинків, що мають камін і не мають його. Якщо ці нахили відрізняються один від одного, між розміром будинку та наявністю каміна існує взаємодія.

Перевірка гіпотези про рівність нахилів зводиться до оцінки вкладу, який вносить у модель регресії твір пояснювальної змінної X 1та фіктивної змінної Х 2. Якщо цей вклад є статистично значущим, вихідну модель регресії застосовувати не можна. Результати регресійного аналізу, що включає змінні Х 1 , Х 2і Х 3 = Х 1 * Х 2наведено на рис. 13.

Рис. 13. Результати, отримані за допомогою Пакет аналізу Excel для регресійної моделі, що враховує житлову площу, наявність каміна та їх взаємодія

Для того щоб перевірити нульову гіпотезу Н 0: β 3 = 0 та альтернативну гіпотезу Н 1: β 3 ≠ 0, використовуючи результати, наведені на рис. 13, звернемо увагу на те, що t-Статистика, що відповідає ефекту взаємодії змінних, дорівнює 1,48. Оскільки рзначення дорівнює 0,166 > 0,05, нульова гіпотеза не відхиляється. Отже, взаємодія змінних немає істотного впливу модель регресії, враховує житлову площу і наявність каміна.

Резюме У замітці показано, як менеджер з маркетингу може застосовувати множинний лінійний аналіз для передбачення обсягу продажу, що залежить від ціни та витрат на рекламу. Розглянуто різні моделі множинної регресії, включаючи квадратичні моделі, моделі з фіктивними змінними та моделі з ефектами взаємодії (рис. 14).

Рис. 14. Структурна схеманотатки

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 873–936

Припустимо, що забудовник оцінює вартість групи невеликих офісних будівель у традиційному діловому районі.

Забудовник може використовувати множинний регресійний аналіз для оцінки ціни офісної будівлі в заданому районі на основі таких змінних.

y – оцінна ціна будівлі під офіс;

x 1 – загальна площа у квадратних метрах;

x 2 – кількість офісів;

x 3 - кількість входів (0,5 входу означає вхід для доставки кореспонденції);

x 4 – час експлуатації будівлі у роках.

У цьому прикладі передбачається, що існує лінійна залежність між кожною незалежною змінною (x 1 , x 2 , x 3 і x 4) та залежною змінною (y), тобто ціною будівлі під офіс у даному районі. Вихідні дані показано малюнку.

Налаштування для вирішення поставленої задачі показано на малюнку вікна Регресія". Результати розрахунків розміщені на окремому аркуші у трьох таблицях

У результаті ми отримали наступну математичну модель:

y = 52318 + 27,64 * x1 + 12530 * x2 + 2553 * x3 - 234,24 * x4.

Тепер забудовник може визначити оцінну вартість будівлі під офіс у тому самому районі. Якщо ця будівля має площу 2500 квадратних метрів, три офіси, два входи та час експлуатації - 25 років, можна оцінити його вартість, використовуючи таку формулу:

y = 27,64 * 2500 + 12530 * 3 + 2553 * 2 - 234,24 * 25 + 52318 = 158261 у.о.

У регресійному аналізі найважливішими результатами є:

  • коефіцієнти при змінних та Y-перетин, які є шуканими параметрами моделі;
  • множинний R, що характеризує точність моделі для вихідних даних;
  • F-критерій Фішера(у розглянутому прикладі він значно перевищує критичне значення, що дорівнює 4,06);
  • t-статистика– величини, що характеризують ступінь важливості окремих коефіцієнтів моделі.

На t-статистиці слід зупинитись особливо. Дуже часто при побудові регресійної моделі невідомо, чи впливає той чи інший фактор x на y. Включення до моделі факторів, які не впливають на вихідну величину, погіршує якість моделі. Обчислення t-статистики допомагає виявити такі чинники. Наближену оцінку можна зробити так: якщо при n>>k величина t-статистики за абсолютним значенням істотно більше трьох, відповідний коефіцієнт слід вважати значущим, а фактор включити в модель, інакше виключити з моделі. Таким чином, можна запропонувати технологію побудови регресійної моделі, що складається з двох етапів:

1) обробити пакетом " Регресіявсі наявні дані, проаналізувати значення t-статистики;

2) видалити з таблиці вихідних даних стовпці з тими чинниками, котрим коефіцієнти незначні і обробити пакетом " Регресіянову таблицю.

У попередніх нотатках предметом аналізу часто ставала окрема числова змінна, наприклад, прибутковість взаємних фондів, час завантаження Web-сторінки або обсяг споживання безалкогольних напоїв. У цій і наступних нотатках ми розглянемо методи передбачення значень числової змінної залежно від значень однієї чи кількох інших числових змінних.

Матеріал буде проілюстрований наскрізним прикладом. Прогнозування обсягу продажу у магазині одягу.Мережа магазинів зниженого в ціні одягу Sunflowers протягом 25 років постійно розширювалася. Проте на даний час компанія не має систематичного підходу до вибору нових торгових точок. Місце, де компанія збирається відкрити новий магазин, визначається з урахуванням суб'єктивних міркувань. Критеріями вибору є вигідні умови оренди або подання менеджера про ідеальне розташування магазину. Уявіть, що ви - керівник відділу спеціальних проектів та планування. Вам доручили розробити стратегічний планвідкриття нових магазинів. Цей план повинен містити прогноз річного обсягу продажів у магазинах, що знову відкриваються. Ви вважаєте, що торгівельна площабезпосередньо з обсягом виручки, і хочете врахувати цей факт у процесі прийняття рішення. Як розробити статистичну модель, Що дозволяє прогнозувати річний обсяг продажів на основі розміру нового магазину?

Як правило, для прогнозування значень змінної використовується регресійний аналіз. Його мета - розробити статистичну модель, що дозволяє передбачати значення залежної змінної, або відгуку, за значеннями принаймні однієї незалежної або пояснюючої змінної. У цьому замітці ми розглянемо просту лінійну регресію - статистичний метод, що дозволяє передбачати значення залежної змінної Yза значеннями незалежної змінної X. У наступних нотатках буде описана модель множинної регресії, призначена для передбачення значень незалежної змінної Yза значеннями кількох залежних змінних ( Х 1 , Х 2 , …, X k).

Завантажити нотатку у форматі або , приклади у форматі

Види регресійних моделей

де ρ 1 - Коефіцієнт автокореляції; якщо ρ 1 = 0 (немає автокореляції), D≈ 2; якщо ρ 1 ≈ 1 (позитивна автокореляція), D≈ 0; якщо ρ 1 = -1 (негативна автокореляція), D ≈ 4.

На практиці застосування критерію Дурбіна-Уотсона ґрунтується на порівнянні величини Dз критичними теоретичними значеннями d Lі d Uдля заданої кількості спостережень n, числа незалежних змінних моделі k(для простої лінійної регресії k= 1) та рівня значущості α. Якщо D< d L , гіпотеза про незалежність випадкових відхиленьвідкидається (отже, є позитивна автокореляція); якщо D > d U, гіпотеза не відкидається (тобто автокореляція відсутня); якщо d L< D < d U немає достатніх підстав для прийняття рішення. Коли розрахункове значення Dперевищує 2, то з d Lі d Uпорівнюється не сам коефіцієнт D, а вираз (4 – D).

Для обчислення статистики Дурбіна-Уотсона в Excel звернемося до нижньої таблиці на рис. 14 Виведення залишку. Чисельник у виразі (10) обчислюється за допомогою функції СУММКВРАЗН(масив1;масив2), а знаменник СУММКВ(масив) (рис. 16).

Рис. 16. Формули розрахунку статистики Дурбіна-Уотсона

У нашому прикладі D= 0,883. Основне питання полягає в наступному - яке значення статистики Дурбіна-Уотсона слід вважати досить малим, щоб зробити висновок про існування позитивної автокореляції? Необхідно співвіднести значення D з критичними значеннями ( d Lі d U), що залежать від числа спостережень nта рівня значущості α (рис. 17).

Рис. 17. Критичні значення статистики Дурбіна-Уотсона (фрагмент таблиці)

Таким чином, у задачі про обсяг продажу в магазині, що доставляє товари додому, існують одна незалежна змінна ( k= 1), 15 спостережень ( n= 15) та рівень значущості α = 0,05. Отже, d L= 1,08 та dU= 1,36. Оскільки D = 0,883 < d L= 1,08, між залишками існує позитивна автокореляція, метод найменших квадратів застосовувати не можна.

Перевірка гіпотез про нахил та коефіцієнт кореляції

Вище регресія застосовувалась виключно для прогнозування. Для визначення коефіцієнтів регресії та передбачення значення змінної Yпри заданій величинізмінної Xвикористовувався метод найменших квадратів. Крім того, ми розглянули середньоквадратичну помилку оцінки та коефіцієнт змішаної кореляції. Якщо аналіз залишків підтверджує, що умови застосування методу найменших квадратів не порушуються, і модель простої лінійної регресії є адекватною, на основі вибіркових даних можна стверджувати, що між змінними в генеральній сукупності існує лінійна залежність.

Застосуванняt -Критерію для нахилу.Перевіряючи, чи дорівнює нахил генеральної сукупності β 1 нулю, можна визначити, чи існує статистично значуща залежність між змінними Xі Y. Якщо ця гіпотеза відхиляється, можна стверджувати, що між змінними Xі YІснує лінійна залежність. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: β 1 = 0 (немає лінійної залежності), Н1: β 1 ≠ 0 (є лінійна залежність). За визначенням t-статистика дорівнює різниці між вибірковим нахилом та гіпотетичним значенням нахилу генеральної сукупності, поділеної на середньоквадратичну помилку оцінки нахилу:

(11) t = (b 1 β 1 ) / S b 1

де b 1 – нахил прямої регресії за вибірковими даними, β1 – гіпотетичний нахил прямої генеральної сукупності, , а тестова статистика tмає t-розподіл з n – 2ступенями свободи.

Перевіримо, чи існує статистично значуща залежність між розміром магазину та річним обсягом продажу при α = 0,05. t-критерій виводиться поряд з іншими параметрами під час використання Пакет аналізу(опція Регресія). Повністю результати роботи Пакету аналізу наведено на рис. 4 фрагмент, що відноситься до t-статистики - на рис. 18.

Рис. 18. Результати застосування t

Оскільки кількість магазинів n= 14 (див. рис.3), критичне значення t-Статистики при рівні значимості α = 0,05 можна знайти за формулою: t L=СТЬЮДЕНТ.ОБР(0,025;12) = –2,1788, де 0,025 – половина рівня значимості, а 12 = n – 2; t U=СТЬЮДЕНТ.ОБР(0,975;12) = +2,1788.

Оскільки t-статистика = 10,64> t U= 2,1788 (рис. 19), нульова гіпотеза Н 0відхиляється. З іншого боку, р-значення для Х= 10,6411, що обчислюється за формулою =1-СТЬЮДЕНТ.РАСП(D3;12;ІСТИНА), приблизно дорівнює нулю, тому гіпотеза Н 0знову відхиляється. Той факт, що рзначення майже дорівнює нулю, означає, що якби між розмірами магазинів і річним обсягом продажів не існувало реальної лінійної залежності, виявити її за допомогою лінійної регресії було б практично неможливо. Отже, між середнім річним обсягом продажів у магазинах та їх розміром існує статистично значуща лінійна залежність.

Рис. 19. Перевірка гіпотези про нахил генеральної сукупності при рівні значимості, що дорівнює 0,05, та 12 ступенях свободи

ЗастосуванняF -Критерію для нахилу.Альтернативним підходом до перевірки гіпотез про нахил простої лінійної регресії є використання F-Критерія. Нагадаємо, що F-Критерій застосовується для перевірки відносин між двома дисперсіями (докладніше див.). Під час перевірки гіпотези про нахилі мірою випадкових помилокє дисперсія помилки (сума квадратів помилок, поділена на кількість ступенів свободи), тому F-Критерій використовує відношення дисперсії, що пояснюється регресією (тобто величини SSR, поділеної на кількість незалежних змінних k), до дисперсії помилок ( MSE = S YX 2 ).

За визначенням F-статистика дорівнює середньому квадрату відхилень, обумовлених регресією (MSR), поділеному на дисперсію помилки (MSE): F = MSR/ MSE, де MSR =SSR / k, MSE =SSE/(n- k - 1), k– кількість незалежних змінних у регресійній моделі. Тестова статистика Fмає F-розподіл з kі n– k – 1ступенями свободи.

При заданому рівні значення α вирішальне правилоформулюється так: якщо F > FUнульова гіпотеза відхиляється; в іншому випадку вона не відхиляється. Результати, оформлені як зведеної таблиці дисперсійного аналізу, наведено на рис. 20.

Рис. 20. Таблиця дисперсійного аналізу для перевірки гіпотези щодо статистичної значущості коефіцієнта регресії

Аналогічно t-критерію F-критерій виводиться в таблицю під час використання Пакет аналізу(опція Регресія). Цілком результати роботи Пакет аналізунаведено на рис. 4, фрагмент, що відноситься до F-Статистиці - на рис. 21.

Рис. 21. Результати застосування F-критерію, отримані за допомогою Пакету аналізу Excel

F-статистика дорівнює 113,23, а р-значення близько до нуля (комірка ЗначимістьF). Якщо рівень значущості α дорівнює 0,05, визначити критичне значення F-розподілу з одним і 12 ступенями свободи можна за формулою F U= F.ОБР (1-0,05; 1; 12) = 4,7472 (рис. 22). Оскільки F = 113,23 > F U= 4,7472, причому р-значення близько до 0< 0,05, нулевая гипотеза Н 0відхиляється, тобто. Обсяг магазину був із його річним обсягом продажів.

Рис. 22. Перевірка гіпотези про нахилі генеральної сукупності при рівні значимості, що дорівнює 0,05, з одним і 12 ступенями свободи

Довірчий інтервал, що містить нахил β 1 .Для перевірки гіпотези про існування лінійної залежності між змінними можна побудувати довірчий інтервал, що містить нахил 1 і переконатися, що гіпотетичне значення 1 = 0 належить цьому інтервалу. Центром довірчого інтервалу, що містить нахил β 1 , є вибірковий нахил b 1 , а його межами - величини b 1 ±t n –2 S b 1

Як показано на рис. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =СТЬЮДЕНТ.ОБР(0,975;12) = 2,1788. Отже, b 1 ±t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, або + 1,328 ≤ β 1 ≤ +2,012. Таким чином, нахил генеральної сукупності з ймовірністю 0,95 лежить в інтервалі від +1,328 до +2,012 (тобто від 1328000 до 2012000 дол.). Оскільки ці величини більші за нуль, між річним обсягом продажів і площею магазину існує статистично значуща лінійна залежність. Якби довірчий інтервал містив нуль, між змінними не було б залежності. Крім того, довірчий інтервал означає, що кожне збільшення площі магазину на 1000 кв. футів призводить до збільшення середнього обсягу продажів на величину від 1328000 до 2012000 доларів.

Використанняt -Критерію для коефіцієнта кореляції.було введено коефіцієнт кореляції r, що є мірою залежності між двома числовими змінними. З його допомогою можна встановити, чи існує між двома змінними статистично значущий зв'язок. Позначимо коефіцієнт кореляції між генеральними сукупностями обох змінних символом ρ. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: ρ = 0 (немає кореляції), Н 1: ρ ≠ 0 (є кореляція). Перевірка існування кореляції:

де r = + , якщо b 1 > 0, r = – , якщо b 1 < 0. Тестовая статистика tмає t-розподіл з n – 2ступенями свободи.

У задачі про мережу магазинів Sunflowers r 2= 0,904, а b 1- +1670 (див. рис. 4). Оскільки b 1> 0, коефіцієнт кореляції між обсягом річних продажів та розміром магазину дорівнює r= +√0,904 = +0,951. Перевіримо нульову гіпотезу, яка стверджує, що між цими змінними немає кореляції, використовуючи t-Статистику:

При рівні значимості α = 0,05 нульову гіпотезу слід відхилити, оскільки t= 10,64> 2,1788. Таким чином, можна стверджувати, що між обсягом річних продажів та розміром магазину існує статистично значущий зв'язок.

При обговоренні висновків, що стосуються нахилу генеральної сукупності, довірчі інтервали та критерії перевірки гіпотез є взаємозамінними інструментами. Проте обчислення довірчого інтервалу, що містить коефіцієнт кореляції, виявляється складнішою справою, оскільки вид вибіркового розподілу статистики. rзалежить від справжнього коефіцієнта кореляції.

Оцінка математичного очікування та передбачення індивідуальних значень

У цьому розділі розглядаються методи оцінки математичного очікування відгуку Yта передбачення індивідуальних значень Yпри заданих значеннях змінної X.

Побудова довірчого інтервалу.У прикладі 2 (див. вище розділ Метод найменших квадратів) регресійне рівняння дозволило передбачити значення змінної Y X. У задачі про вибір місця для торгової точки середній річний обсяг продажу магазині площею 4000 кв. футів дорівнював 7,644 млн. дол. Однак ця оцінка математичного очікування генеральної сукупності є точковою. для оцінки математичного очікування генеральної сукупності було запропоновано концепцію довірчого інтервалу. Аналогічно можна запровадити поняття довірчого інтервалу для математичного очікування відгукупри заданому значеннізмінної X:

де , = b 0 + b 1 X i- Передбачене значення змінне Yпри X = X i, S YX- Середньоквадратична помилка, n- Обсяг вибірки, Xi- задане значення змінної X, µ Y|X = Xi– математичне очікування змінної Yпри Х = Х i, SSX =

Аналіз формули (13) показує, що ширина довірчого інтервалу залежить від кількох факторів. При заданому рівні значущості зростання амплітуди коливань навколо лінії регресії, виміряне за допомогою середньоквадратичної помилки, призводить до збільшення ширини інтервалу. З іншого боку, як і слід було очікувати, збільшення обсягу вибірки супроводжується звуженням інтервалу. Крім того, ширина інтервалу змінюється в залежності від значень Xi. Якщо значення змінної Yпередбачається для величин Xблизьких до середнього значення , Довірчий інтервал виявляється вже, ніж при прогнозуванні відгуку для значень, далеких від середнього.

Припустимо, що, вибираючи місце для магазину, ми хочемо побудувати 95% довірчий інтервал для середнього річного обсягу продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів:

Отже, середній річний обсяг продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів, з 95%-ною ймовірністю лежить в інтервалі від 6,971 до 8,317 млн. дол.

Обчислення довірчого інтервалу для передбаченого значення.Крім довірчого інтервалу для математичного очікування відгуку при заданому значенні змінної Xчасто необхідно знати довірчий інтервал для передбаченого значення. Незважаючи на те, що формула для обчислення такого довірчого інтервалу дуже схожа на формулу (13), цей інтервал містить передбачене значення, а не оцінку параметра. Інтервал для передбаченого відгуку YX = Xiпри конкретному значенні змінної Xiвизначається за формулою:

Припустимо, що, вибираючи місце для торгової точки, ми хочемо побудувати 95% довірчий інтервал для передбаченого річного обсягу продажів у магазині, площа якого дорівнює 4000 кв. футів:

Отже, передбачений річний обсяг продажів у магазині, площа якого дорівнює 4000 кв. футів, з 95%-ной ймовірністю лежить в інтервалі від 5,433 до 9,854 млн. дол. Як бачимо, довірчий інтервал для передбаченого значення відгуку набагато ширший, ніж довірчий інтервал для його математичного очікування. Це тим, що мінливість при прогнозуванні індивідуальних значень набагато більше, ніж за оцінці математичного очікування.

Підводне каміння та етичні проблеми, пов'язані із застосуванням регресії

Проблеми, пов'язані з регресійним аналізом:

  • Ігнорування умов застосування методу найменших квадратів.
  • Помилкова оцінка умов застосування методу найменших квадратів.
  • Неправильний вибір альтернативних методів у разі порушення умов застосування методу найменших квадратів.
  • Застосування регресійного аналізу без глибоких знань про предмет дослідження.
  • Екстраполяція регресії за межі діапазону зміни змінної, що пояснює.
  • Плутанина між статистичною та причинно-наслідковою залежностями.

Широке поширення електронних таблиць та програмного забезпеченнядля статистичних розрахунків ліквідувало обчислювальні проблеми, що перешкоджали застосуванню регресійного аналізу. Однак це призвело до того, що регресійний аналіз стали застосовувати користувачі, які не мають достатньої кваліфікації та знань. Звідки користувачам знати про альтернативні методи, якщо багато хто з них взагалі не має жодного поняття про умови застосування методу найменших квадратів і не вміє перевіряти їх виконання?

Дослідник не повинен захоплюватися перемелюванням чисел - обчисленням зсуву, нахилу та коефіцієнта змішаної кореляції. Йому потрібні глибші знання. Проілюструємо це класичним прикладом, взятий з підручників. Анскомб показав, що це чотири набору даних, наведених на рис. 23, мають одні й самі параметри регресії (рис. 24).

Рис. 23. Чотири набори штучних даних

Рис. 24. Регресійний аналіз чотирьох штучних наборів даних; виконаний за допомогою Пакет аналізу(Клікніть на малюнку, щоб збільшити зображення)

Отже, з погляду регресійного аналізу, всі ці набори даних абсолютно ідентичні. Якби аналіз був на цьому закінчений, ми втратили б багато корисної інформації. Про це свідчать діаграми розкиду (рис. 25) та графіки залишків (рис. 26), побудовані для цих наборів даних.

Рис. 25. Діаграми розкиду для чотирьох наборів даних

Діаграми розкиду та графіки залишків свідчать про те, що ці дані відрізняються одна від одної. Єдиний набір, розподілений уздовж прямої лінії, - набір А. Графік залишків, обчислених за набором А, немає закономірності. Цього не можна сказати про набори Б, В та Г. Графік розкиду, побудований за набором Б, демонструє яскраво виражену квадратичну модель. Цей висновок підтверджується графіком залишків, які мають параболічну форму. Діаграма розкиду та графік залишків показують, що набір даних містить викид. У цій ситуації необхідно виключити викид із набору даних та повторити аналіз. Метод, що дозволяє виявляти та виключати викиди зі спостережень, називається аналізом впливу. Після виключення викиду результат повторної оцінки моделі може бути зовсім іншим. Діаграма розкиду, побудована за даними набору Р, ілюструє незвичайну ситуацію, у якій емпірична модель значно залежить від окремого відгуку ( Х 8 = 19, Y 8 = 12,5). Такі регресійні моделі необхідно обчислювати особливо ретельно. Отже, графіки розкиду та залишків є вкрай необхідним інструментом регресійного аналізу та мають бути його невід'ємною частиною. Без них регресійний аналіз не заслуговує на довіру.

Рис. 26. Графіки залишків для чотирьох наборів даних

Як уникнути підводного каміння при регресійному аналізі:

  • Аналіз можливого взаємозв'язку між змінними Xі Yзавжди починайте з побудови діаграми розкиду.
  • Перш ніж інтерпретувати результати регресійного аналізу, перевіряйте умови його застосування.
  • Побудуйте графік залежності залишків від незалежної змінної. Це дозволить визначити, наскільки емпірична модель відповідає результатам спостереження, та виявити порушення сталості дисперсії.
  • Для перевірки припущення про нормальний розподіл помилок використовуйте гістограми, діаграми «ствол та листя», блокові діаграми та графіки нормального розподілу.
  • Якщо умови застосування методу найменших квадратів не виконуються, використовуйте альтернативні методи (наприклад, моделі квадратичної або множинної регресії).
  • Якщо умови застосування методу найменших квадратів виконуються, необхідно перевірити гіпотезу про статистичну значущість коефіцієнтів регресії та побудувати довірчі інтервали, що містять математичне очікування та передбачене значення відгуку.
  • Уникайте передбачати значення залежної змінної за межами діапазону зміни незалежної змінної.
  • Майте на увазі, що статистичні залежностіне завжди є причинно-наслідковими. Пам'ятайте, що кореляція між змінними не означає наявності причинно-наслідкової залежності між ними.

РезюмеЯк показано на структурній схемі (рис. 27), у замітці описані модель простої лінійної регресії, умови її застосування та способи перевірки цих умов. Розглянуто t-Критерій для перевірки статистичної значущості нахилу регресії Для передбачення значень залежною змінною використана регресійна модель. Розглянуто приклад, пов'язаний із вибором місця для торгової точки, в якому досліджується залежність річного обсягу продажу від площі магазину. Отримана інформація дозволяє точніше вибрати місце для магазину та передбачити його річний обсяг продажу. У наступних нотатках буде продовжено обговорення регресійного аналізу, а також розглянуто моделі множинної регресії.

Рис. 27. Структурна схема нотатки

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 792–872

Якщо залежна змінна є категорійною, необхідно застосовувати логістичну регресію.

Призначення множинної регресії – аналіз зв'язку між однією залежною та кількома незалежними змінними.

Приклад: Існують дані про вартість одного робочого місця (при купівлі 50 робочих місць) для різних PDM-систем. Потрібно: оцінити залежність між ціною робочого місця PDM-системи кількості реалізованих у ній характеристик, наведених у таблиці 2.

Таблиця 2 – Характеристики PDM-систем

Номер п/п PDM-система Вартість Керування конфігурацією виробу Моделі виробів Колективна робота Управління змінами виробів Документообіг Архіви Пошук документів Планування проекту Управління виготовленням виробів
iMAN Так Так
PartY Plus Так Так
PDM STEP Suite Так Так
Search Так Так
Windchill Так Так
Компас Менеджер Так Так
T-Flex Docs Так Так
ТехноПро Ні Ні

Чисельне значення характеристик (крім "Вартість", "Моделі виробів" та "Колективна робота") означає кількість реалізованих вимог кожної характеристики.

Створимо та заповнимо електронну таблицю з вихідними даними (Малюнок 27).

Значення "1" змінних "Мод. вид.» та «Колект. р-ту.» відповідає значенню "Так" вихідних даних, а значення "0" значенню "Ні" вихідних даних.

Побудуємо регресію між залежною змінною «Вартість» та незалежними змінними «Упр. конф.», «Мод. вид.», «Колект. р-ту», «Упр. вим.», «Док.», «Архіви», «Пошук», «План-е», «Упр. виготов.».

Спочатку статистичного аналізу вихідних даних викликати модуль «Multiple Regression» (рисунок 22).

У діалоговому вікні (малюнок 23), що з'явилося, вказати змінні за якими буде проводитися статистичний аналіз.

Малюнок 27 - Вихідні дані

Для цього натиснути кнопку Variables і в діалоговому вікні (малюнок 28) в частині відповідної залежним змінним (Dependent var.) вибрати «1-Вартість», а в частині відповідній незалежним змінним (Independent variable list) вибрати всі інші змінні. Вибір кількох змінних зі списку здійснюється за допомогою клавіш «Ctrl» або «Shift» або вказівкою номерів (діапазону номерів) змінних у відповідному полі.



Рисунок 28 - Діалогове вікно завдання змінних для статистичного аналізу

Після того, як змінні вибрані натиснути кнопку "OK" у діалоговому вікні завдання параметрів модуля "Multiple Regression". У вікні з написом «No of indep. vars. >=(N-1); cannot invert corr. matrix.» (Рисунок 29) натиснути кнопку «OK».

Це повідомлення у разі коли система неспроможна побудувати регресію за всіма заявленим незалежним змінним, т.к. число змінних більше або дорівнює кількості випадків мінус 1.

У вікні (малюнок 30) на закладці «Advanced» можна змінити метод побудови рівняння регресії.

Малюнок 29 - Повідомлення про помилку

Для цього в полі "Method" (метод) вибрати "Forward stepwise" (покроковий з включенням).

Рисунок 30 - Вікно вибору методу та завдання параметрів побудови рівняння регресії

Метод покрокової регресії у тому, що у кожному кроці в модель включається, чи виключається якась незалежна змінна. Таким чином, виділяється безліч найбільш "значних" змінних. Це дозволяє скоротити кількість змінних, що описують залежність.

Покроковий аналіз із винятком («Backward stepwise»). У цьому випадку всі змінні будуть спочатку включені в модель, а потім на кожному кроці будуть усуватися змінні, які вносять малий внесок у прогнози. Тоді як результат успішного аналізу можна зберегти тільки "важливі" змінні в моделі, тобто ті змінні, чий внесок у дискримінацію більше за інших.

Покроковий аналіз із включенням («Forward stepwise»). При використанні цього методу регресійне рівняння послідовно включаються незалежні змінні, поки рівняння стане задовільно описувати вихідні дані. Включення змінних визначається з допомогою F - критерію. На кожному кроці проглядаються всі змінні і знаходиться та з них, яка робить найбільший внесок у різницю між сукупностями. Ця змінна має бути включена в модель на даному кроціі відбувається перехід до наступного кроку.

У полі «Intercept» (вільний член регресії) можна вибрати чи включати їх у рівняння («Include in model») чи враховувати і вважати рівним нулю («Set to zero»).

Параметр Tolerance це толерантність змінних. Визначається як 1 мінус квадрат коефіцієнта множинної кореляціїцієї змінної з усіма іншими незалежними змінними у рівнянні регресії. Тому, що менший толерантність змінної, то надлишковий - її внесок у рівняння регресії. Якщо толерантність будь-який із змінних у рівнянні регресії дорівнює чи близька до нуля, то рівняння регрес не може бути оцінено. Тому параметр толерантність бажано поставити рівним 0,05 або 0,1.

Параметр “Ridge regression; lambda:» використовується, коли незалежні змінні високо міжкорельовані, та стійкі оцінки для коефіцієнтів рівняння регресії, не можуть бути отримані через метод найменших квадратів. Зазначена постійна (лямбда) буде додана до діагоналі матриці кореляцій, яка тоді знову буде приведена до стандартизованого вигляду (так щоб всі діагональні елементи дорівнювали 1.0). Іншими словами, даний параметр штучно зменшує коефіцієнти кореляції так, щоб можна було обчислити більш стійкі (все ж таки зміщений) оцінки параметрів регресії. У нашому випадку цей параметр не використовується.

Параметр "Batch processing/printing" (обробка, друк звітів) використовується, коли необхідно відразу підготувати для звіту кілька таблиць, що відображають результати та процес регресійного аналізу. Ця опція є дуже корисною, коли необхідно надрукувати або проаналізувати результати покрокового регресійного аналізу на кожному кроці.

На закладці Stepwise (рисунок 31) можна задати параметри умови включення (F to enter) або виключення (F to remove) змінних при побудові рівняння регресії, а також кількість кроків побудови рівняння (Number of steps).

Рисунок 31 – Закладка «Stepwise» вікна вибору методу та завдання параметрів побудови регресійного рівняння

F це величина значення F-критерію.

Якщо при покроковому аналізі з включенням необхідно, щоб усі або майже всі змінні увійшли до рівняння регресії, то необхідно значення «F to enter» встановити мінімальним (0,0001), і значення «F to remove» також встановити мінімальним.

Якщо при покроковому аналізі з винятком необхідно, видаляти всі змінні (по одній) з рівняння регресії необхідно значення «F to enter» встановити дуже великим, наприклад 999, і значення «F to remove» встановити близьким до «F to enter».

Слід пам'ятати, що значення параметра «F to remove» завжди має бути меншим, ніж «F to enter».

Опція Display results (відображення результатів) має два варіанти:

2) At each step – відображати результати аналізу кожному кроці.

Після натискання кнопки OK у вікні вибору методів регресійного аналізу з'явиться вікно результатів аналізу (рисунок 32).

Рисунок 32 - Вікно результатів аналізу

Малюнок 33 - Короткі результати регресійного аналізу

Відповідно до результатів аналізу коефіцієнт детермінації. Це означає, що збудована регресія пояснює 99,987% розкиду значень щодо середнього, тобто. пояснює практично всю мінливість змінних.

Велике значеннята її рівень значущості показують, що побудована регресія високо значуща.

Щоб переглянути короткі результати регресії, натисніть кнопку «Summary: Regression result». На екрані з'явиться електронна таблицяз результатами аналізу (рис. 33).

У третьому стовпці («B») відображено оцінки невідомих параметрів моделі, тобто. коефіцієнти рівняння регресії

Таким чином, шукана регресія має вигляд:

Якісно побудоване рівняння регресії можна інтерпретувати так:

1) Вартість PDM-системи збільшується зі зростанням кількості реалізованих функцій з управління змінами, документообігом та плануванням, а також, якщо в систему включена функція підтримки моделі виробу;

2) Вартість PDM-системи знижується зі збільшенням реалізованих функцій управління конфігурацією та зі збільшенням можливостей пошуку.

Завданням множинної лінійної регресії є побудова лінійної моделі зв'язку між набором безперервних предикторів та безперервною залежною змінною. Часто використовується наступне регресійне рівняння:

Тут а i- регресійні коефіцієнти, b 0- вільний член (якщо він використовується), е- Член, що містить помилку - з приводу нього робляться різні припущення, які, однак, частіше зводяться до нормальності розподілу з нульовим вектором мат. очікування та кореляційною матрицею.

Такий лінійною моделлюдобре описуються багато завдань у різних предметних областях, наприклад, економіки, промисловості, медицини. Це тому, що деякі завдання лінійні за своєю природою.

Наведемо найпростіший приклад. Нехай потрібно передбачити вартість прокладання дороги за відомими її параметрами. При цьому у нас є дані про вже прокладені дороги із зазначенням протяжності, глибини обсипання, кількості робочого матеріалу, числа робітників і так далі.

Зрозуміло, що вартість дороги врешті-решт стане рівної сумівартості всіх цих факторів окремо. Потрібна деяка кількість, наприклад, щебеню з відомою вартістю за тонну, деяка кількість асфальту також з відомою вартістю.

Можливо, для прокладання доведеться вирубувати ліс, що також призведе до додаткових витрат. Все це разом дасть вартість створення дороги.

При цьому в модель увійде вільний член, який, наприклад, відповідатиме за організаційні витрати (приблизно однакові для всіх будівельно-монтажних робіт даного рівня) або податкові відрахування.

Помилка буде включати фактори, які ми не врахували при побудові моделі (наприклад, погоду при будівництві - її взагалі врахувати неможливо).

Приклад: множинний регресійний аналіз

Для цього прикладу будуть аналізуватися кілька можливих кореляцій рівня бідності та ступінь, що передбачає відсоток сімей, що перебувають за межею бідності. Отже ми вважатимемо змінну характеризуючу відсоток сімей, що є межею бідності, - залежною змінної, інші ж змінні безперервними предикторами.

Коефіцієнти регресії

Щоб дізнатися, яка з незалежних змінних робить більший внесок у прогноз рівня бідності, вивчимо стандартизовані коефіцієнти (або Бета) регресії.

Рис. 1. Оцінки параметрів коефіцієнтів регресії.

Коефіцієнти Бета це коефіцієнти, які ви отримали б, якби привели всі змінні до середнього 0 і стандартного відхилення 1. Отже величина цих Бета коефіцієнтів дозволяє порівнювати відносний внесок кожної незалежної змінної в залежну змінну. Як видно з Таблиці, наведеної вище, змінні зміни населення з 1960 року (POP_ CHING), відсоток населення, що проживає в селі (PT_RURAL) та кількість людей, зайнятих у сільському господарстві(N_Empld) є головними предикторами рівня бідності, т.к. тільки вони статистично значущі (їх 95% довірчий інтервал не включає 0). Коефіцієнт регресії зміни населення з 1960 року (Pop_Chng) негативний, отже, що менше зростає чисельність населення, тим більше сімей, які живуть за межею бідності у відповідному окрузі. Коефіцієнт регресії населення (%), що у селі (Pt_Rural) позитивний, тобто, що більше відсоток сільських жителів, тим більший рівеньбідності.

Значення ефектів предиктора

Переглянемо Таблицю з умовами значимості.

Рис. 2. Одночасні результати кожної заданої змінної.

Як свідчить ця Таблиця, статистично значущі лише ефекти 2 змінних: зміна населення з 1960 року (Pop_Chng) і відсоток населення, що у селі (Pt_Rural), p< .05.

Аналіз залишків. Після припасування рівняння регресії, майже завжди потрібно перевіряти передбачені значення та залишки. Наприклад, великі викиди можуть сильно спотворити результати та призвести до помилкових висновків.

Порядковий графік викидів

Зазвичай необхідно перевіряти вихідні або стандартизовані залишки великих викидів.

Рис. 3. Номери спостережень та залишки.

Шкала вертикальної осіцього графіка відкладено за величиною сигма, тобто, стандартного відхиленнязалишків. Якщо одне або кілька спостережень не потрапляють в інтервал ± 3, помножене на сигму, то, можливо, варто виключити ці спостереження (це можна легко зробити через умови вибору спостережень) і ще раз запустити аналіз, щоб переконатися, що результати не змінюються цими викидами.

Відстань Махаланобіса

Більшість статистичних підручників приділяють багато часу викидам та залишкам щодо залежної змінної. Проте роль викидів у предикторах часто залишається не виявленою. На стороні змінної предиктора є перелік змінних, які беруть участь з різними вагами (коефіцієнти регресії) у передбаченні залежної змінної. Можна вважати незалежні змінні багатовимірним простором, де можна відкласти будь-яке спостереження. Наприклад, якщо у вас є дві незалежних змінних з рівними коефіцієнтамирегресії, то можна було б побудувати діаграму розсіювання цих двох змінних та помістити кожне спостереження на цей графік. Потім можна було відзначити на цьому графіку середнє значення та обчислити відстані від кожного спостереження до цього середнього (так званий центр тяжкості) у двовимірному просторі. У цьому полягає основна ідея обчислення відстані Махаланобиса . Тепер подивимося на гістограму змінної зміни населення із 1960 року.

Рис. 4. Гістограма розподілу відстаней Махаланобіса.

З графіка випливає, що є один викид на відстані Махаланобіса.

Рис. 5. Спостережувані, передбачені та значення залишків.

Зверніть увагу на те, що округ Shelby (у першому рядку) виділяється на тлі інших округів. Якщо подивитися на вихідні дані, то ви виявите, що насправді округ Shelby має саме велике числолюдей, зайнятих у сільському господарстві (змінна N_Empld). Можливо, було б розумним висловити у відсотках, а не в абсолютних числах, і в цьому випадку відстань Махаланобіса округу Shelby, ймовірно, не буде такою великою на тлі інших округів. Очевидно, що округ Shelby є викидом.

Віддалені залишки

Іншою дуже важливою статистикою, яка дозволяє оцінити серйозність проблеми викидів, є віддалені залишки. Це стандартизовані залишки для відповідних спостережень, що виходять при видаленні цього спостереження з аналізу. Пам'ятайте, що процедура множинної регресії підганяє поверхню регресії таким чином, щоб показати взаємозв'язок між залежною та змінною та предиктором. Якщо одне спостереження є викидом (як округ Shelby), існує тенденція до " відтягування " поверхні регресії до цього викиду. В результаті, якщо відповідне спостереження видалити, буде отримана інша поверхня (і коефіцієнти Бета). Отже, якщо віддалені залишки дуже відрізняються від стандартизованих залишків, то у вас буде привід вважати, що регресійний аналізсерйозно спотворений відповідним спостереженням. У цьому прикладі віддалені залишки для округу Shelby показують, що це викид, який серйозно перекручує аналіз. На діаграмі розсіювання очевидно видно викид.

Рис. 6. Вихідні залишки та Видалені залишки змінної, що означає відсоток сімей, які проживають нижче за прожитковий мінімум.

Більшість з них має більш менш ясні інтерпретації, проте звернемося до нормальних ймовірнісних графіків.

Як вже було згадано, множинна регресія передбачає, що існує лінійний взаємозв'язок між змінними у рівнянні та нормальний розподіл залишків. Якщо ці припущення порушені, висновок може виявитися неточним. Нормальний ймовірнісний графік залишків вкаже вам, є серйозні порушення цих припущень чи ні.

Рис. 7. Нормальний імовірнісний графік; Початкові залишки.

Цей графік був побудований в такий спосіб. Спочатку стандартизовані залишки ранжуються по порядку. За цими рангами можна обчислити значення z (тобто стандартні значення нормального розподілу) на основі припущення, що дані підпорядковуються нормальному розподілу. Ці значення відкладаються по осі y на графіку.

Якщо залишки (відкладаються по осі x), що спостерігаються, нормально розподілені, то всі значення лягли б на пряму лінію на графіку. На нашому графіку всі крапки лежать дуже близько щодо кривої. Якщо залишки не є нормально розподіленими, вони відхиляються від цієї лінії. Викиди також стають помітними на цьому графіку.

Якщо є втрата згоди і здається, що дані утворюють явну криву (наприклад, у формі літери S) щодо лінії, залежну змінну можна перетворити деяким способом (наприклад, логарифмічне перетвореннядля "зменшення" хвоста розподілу і т.д.). Обговорення цього методу знаходиться за межами цього прикладу (Neter, Wasserman, і Kutner, 1985, pp. 134-141, представлено обговорення перетворень, що прибирають ненормальність та нелінійність даних). Однак дослідники часто-густо просто проводять аналіз безпосередньо без перевірки відповідних припущень, що веде до помилкових висновків.