Біографії Характеристики Аналіз

Множинна лінійна регресія приклад. Рішення засобами табличного процесора Excel

I have a big bookshelf включаючи багато books divided in many varieties. На верхньому дворі є religious books як Fiqh books, Tauhid books, Tasawuf books, Nahwu books, etc. Вони є lined up neatly in many rows and some of them are lined up neatly according to the writers. На першому рівні є мої studious books як Grammar books, Writing books, TOEFL books, etc. Вони є arranged засновані на розмірах. На next shelf are many kinds of scientific and knowledgeable books; для прикладу, Philosophies, Politics, Histories, etc. Там є три рівні для них. Ймовірно, внизу моїх bookshelf є висновки, вони є арабські слів і англійських слів як добре як англійські слів. Індеї, там є шість рівнів у моїх великих книгах, і вони є lined up в багатьох рядках. Перші рівні включають religious books, second level includes my studious books, third level have three levels includes many kinds of scientific and knowledgeable books and last level includes dictionaries. У часі, I love my bookshelf.

Specific-to-general order

Skills потрібні для отримання рівня від написання відповідних графічних знаків, за допомогою ресурсів chosen language, anticipation the reactions of intended readers. Перші шкільні області встановлюють придбання системи, які можуть бути alfabetic (as in European languages) або nonalphabetic (as in many Asian languages). У другій зоні знаряддя потреби вирізняють відповідні grammar і vocabulary до форми сприйнятливі sentences і будуть писати їх в параграфах. Трьох, писавши взавжди думати про те, що purpose of the text, щоб бути складеним і про свої можливі ефекти на виконаному стилі. Одним важливим аспектом цієї останньої риси є те, що потрібний стильний стиль. Unlike speaking, writing is a complex sociocognitive process, що має бути придбаний через роки тренування або навчання. (Swales and Feak, 1994, p. 34)

General-to-specific order

"Працюю частину часу як cashier на Piggly Wiggly має велику велику можливість для того, щоб захистити людську поведінку. рати - customers, я можу - спрямовувати routine pattern, стролячи вниз і вниз ялинки, стежити за моїми chute, і будуть escaping через кінець ящика. abnormal customer: the amnesiac, the super shopper, and the dawdler. . ."

Існують багато факторів, що contribute до student success in college. Перший factor is hago goal in mind before establishing a course of study. The goal may be as general as wanting to better educate oneself for the future. A більше specific goal would be to earn a teaching credential. A second factor related to student success is self-motivation and commitment. Студент, який намагається досліджувати і працював за ці невтішні, щоб досягти успіху, easily as a college student. На три factor linked to student success is using college services. Більшість початківців школярів усвідомлюють, як важливо, щоб вона могла скористатися комунікатором або консультуванням з лікарняним або фінансовою адміністрацією.

There are three reasons why Canada is one of the best countries in the world. First, Canada має чудову медичну допомогу. Всі Canadians мають доступ до медичних послуг на відповідній вартості. Second, Canada має високий рівень освіти. Students є taught be well-trained teachers і є encouraged to continue studying at university. Finally, Canada's cities є clean and efficiently organized. Canadian cities мають багато парків і багато місць для людей до життя. Як результат, Canada є desirable place to live.

York був підписаний шістьма німецькими зірками, які на ньому з fixed bayonets. Він drew bead на шістьох людей, огортається, і він на шість. Він працював, як він поставив на лінію, і перед тим, як знімати його, перша людина була все по ній. York killed him with a single shot.

Як я кинувся навколо campus, який мав hardly changed, he unconsciously relieved those moments he had spent with Nancy. Він зазначає, що два з них повинні були сидіти біля ящиків, хлопчики нескінченно як вони пишуть риби, так і як кажуть, що вони беруть ходи до того, як у них власний світ. Yes, Nancy був одним з кількох дорослих, що він had ever had. ….He був suddenly filled with nostalgia as he recalled that afternoon he had bid farewell to Nancy. He sniffed loudly as his eyes filled with tears.

Приклади розв'язання задач з множинної регресії

приклад 1.Рівняння регресії, побудоване за 17 спостереженнями, має вигляд:

Розставити пропущені значення, а також побудувати довірчий інтервал для b 2із ймовірністю 0,99.

Рішення.Пропущені значення визначаємо за допомогою формул:

Таким чином, рівняння регресії зі статистичними характеристиками виглядає так:

Довірчий інтервал для b 2будуємо за відповідною формулою. Тут рівень значущості дорівнює 0,01, а кількість ступенів свободи дорівнює np- 1 = 17 - 3 - 1 = 13, де n= 17 - обсяг вибірки, p= 3 – число чинників у рівнянні регресії. Звідси

або . Цей довірчий інтервал накриває дійсне значення параметра з ймовірністю 0,99.

приклад 2.Рівняння регресії у стандартизованих змінних виглядає так:

При цьому варіації всіх змінних дорівнюють наступним величинам:

Порівняти фактори за ступенем впливу на результуючу ознаку та визначити значення приватних коефіцієнтів еластичності.

Рішення.Стандартизовані рівняння регресії дозволяють порівнювати чинники за силою їхнього впливу результат. При цьому, чим більший за абсолютною величиною коефіцієнт при стандартизованій змінній, тим сильніше цей фактор впливає на результуючу ознаку. У аналізованому рівнянні найсильніший вплив на результат надає фактор х 1, що має коефіцієнт - 0,82, найслабше - фактор х 3з коефіцієнтом, що дорівнює – 0,43.

У лінійній моделі множинної регресії узагальнюючий (середній) коефіцієнт приватної еластичності визначається виразом, який включає середні значення змінних і коефіцієнт при відповідному факторі рівняння регресії натурального масштабу. У разі завдання ці величини не задані. Тому скористаємося виразами для варіації за змінними:

Коефіцієнти b jпов'язані зі стандартизованими коефіцієнтами β jвідповідним співвідношенням, яке підставимо у формулу для середнього коефіцієнта еластичності:

.

При цьому знак коефіцієнта еластичності співпадатиме зі знаком β j:

приклад 3.За 32 спостереженнями отримані такі дані:

Визначити значення скоригованого коефіцієнта детермінації, приватних коефіцієнтів еластичності та параметра а.

Рішення.Значення скоригованого коефіцієнта детермінації визначимо по одному з формул для його обчислення:

Приватні коефіцієнти еластичності (середні за сукупністю) обчислюємо за відповідними формулами:

Оскільки лінійне рівняння множинної регресії виконується при підстановці до нього середніх значень усіх змінних, визначаємо параметр а:

приклад 4.За деякими змінними є такі статистичні дані:

Побудувати рівняння регресії у стандартизованому та натуральному масштабах.

Рішення.Оскільки відомі коефіцієнти парної кореляції між змінними, почати слід з побудови рівняння регресії в стандартизованому масштабі. Для цього треба вирішити відповідну систему нормальних рівнянь, яка у разі двох факторів має вигляд:

або після підстановки вихідних даних:

Вирішуємо цю систему будь-яким способом, отримуємо: β 1 = 0,3076, β 2 = 0,62.

Запишемо рівняння регресії у стандартизованому масштабі:

Тепер перейдемо до рівняння регресії в натуральному масштабі, для чого використовуємо формули розрахунку коефіцієнтів регресії через бета-коефіцієнти та властивість справедливості рівняння регресії для середніх змінних:

Рівняння регресії в натуральному масштабі має вигляд:

Приклад 5.При побудові лінійної множинної регресії за 48 вимірами коефіцієнт детермінації становив 0,578. Після виключення факторів х 3, х 7і х 8коефіцієнт детермінації зменшився до 0,495. Чи обґрунтовано було прийняте рішення про зміну складу змінних, що впливають, на рівнях значущості 0,1, 0,05 і 0,01?

Рішення.Нехай коефіцієнт детермінації рівняння регресії при початковому наборі факторів, коефіцієнт детермінації після виключення трьох факторів. Висуваємо гіпотези:

;

Основна гіпотеза припускає, що зменшення величини було несуттєвим, і рішення про виключення групи факторів було правильним. Альтернативна гіпотеза свідчить про правильність прийнятого рішення про виключення.

Для перевірки нуль – гіпотези використовуємо таку статистику:

,

де n = 48, p= 10 - первісна кількість факторів, k= 3 – кількість факторів, що виключаються. Тоді

Порівняємо отримане значення з критичним F(α ; 3; 39) на рівнях 01; 0,05 та 0,01:

F(0,1; 3; 37) = 2,238;

F(0,05; 3; 37) = 2,86;

F(0,01; 3; 37) = 4,36.

На рівні α = 0,1 F набл > F кр, нуль – гіпотеза відкидається, виняток цієї групи чинників не виправдано, рівнях 0,05 0,01 нуль – гіпотеза може бути відкинуто, і виняток чинників вважатимуться виправданим.

Приклад 6. На основі квартальних даних з 2000 р. по 2004 р. отримано рівняння. У цьому ESS=110,3, RSS=21,4 (ESS – пояснена СКО, RSS – залишкова СКО). До рівняння було додано три фіктивні змінні, що відповідають трьом першим кварталам року, і величина ESS збільшилася до 120,2. Чи є сезонність у цьому рівнянні?

Рішення. Це завдання на перевірку обґрунтованості включення групи факторів до рівняння множинної регресії. До початкового рівняння з трьома факторами було додано три змінні, що відповідають першим трьом кварталам року.

Визначимо коефіцієнти детермінації рівнянь. Загальна СКО визначається як сума факторної та залишкової СКО:

ТSS = ESS 1 + RSS 1 = 110,3 + 21,4 = 131,7

Перевіряємо гіпотези. Для перевірки нуль – гіпотези використовуємо статистику

Тут n= 20 (20 кварталів за п'ять років – з 2000 р. до 2004 р.), p = 6 (Загальна кількістьфакторів у рівнянні регресії після включення нових факторів), k= 3 (кількість факторів, що включаються). Таким чином:

Визначимо критичні значення статистики Фішера різних рівнях значимості:

На рівнях значущості 0,1 та 0,05 F набл> F кр, нуль - гіпотеза відкидається на користь альтернативної, і облік сезонності в регресії є обґрунтованим (додавання трьох нових факторів виправдане), а на рівні 0,01 F набл< F кр, і нуль – гіпотеза може бути відхилена; додавання нових факторів не виправдане, сезонність у регресії не є суттєвою.

Приклад 7.При аналізі даних на гетероскедастичність вся вибірка була після впорядкування по одному з факторів розбита на три підвибори. Потім за результатами трифакторного регресійного аналізу було визначено, що залишкова СКО у першій підвиборці склала 180, а в третій – 63. Чи підтверджується наявність гетероскедастичності, якщо обсяг даних у кожній підвиборці дорівнює 20?

Рішення. Розрахуємо-статистику для перевірки нуль-гіпотези про гомоскедастичність за тестом Голдфелда-Квандта:

.

Знайдемо критичні значення статистики за Фішером:

Отже, на рівнях значущості 0,1 та 0,05 F набл> F кр, і гетероскедастичність має місце, а на рівні 0,01 F набл< F кр, і гіпотезу про гомоскедастичність відхилити не можна.

Приклад 8. На основі квартальних даних отримано рівняння множинної регресії, для якого ESS = 120,32 та RSS = 41,4. Для цієї моделі були окремо проведені регресії з урахуванням наступних даних: 1 квартал 1991 р. – 1 квартал 1995 р. і 2 квартал 1995 р. – 4 квартал 1996 р. У цих регресіях залишкові СКО відповідно становили 22,25 і 12,32 . Перевірити гіпотезу про наявність структурних змін у вибірці.

Рішення. Завдання про наявність структурних змін у вибірці вирішується за допомогою тесту Чоу.

Гіпотези мають вигляд: , де s 0, s 1і s 2- Залишкові СКО відповідно для єдиного рівняння по всій вибірці та рівнянь регресії двох підвибірок загальної вибірки. Основна гіпотеза заперечує наявність структурних змін у вибірці. Для перевірки нуль – гіпотези розраховується статистика ( n = 24; p = 3):

Оскільки F – статистика менше одиниці, нуль – гіпотезу не можна відхилити для рівня значимості. Наприклад, рівня значимості 0,05.

Регресійний аналіз - це статистичний метод дослідження, що дозволяє показати залежність того чи іншого параметра від однієї чи кількох незалежних змінних. У докомп'ютерну епоху його застосування було досить складно, особливо якщо йшлося про великі обсяги даних. Сьогодні, дізнавшись, як побудувати регресію в Excel, можна вирішувати складні статистичні завдання буквально за пару хвилин. Нижче представлені конкретні прикладиз галузі економіки.

Види регресії

Саме це поняття було введено в математику у 1886 році. Регресія буває:

  • лінійної;
  • параболічній;
  • статечної;
  • експоненційною;
  • гіперболічній;
  • показовою;
  • логарифмічні.

Приклад 1

Розглянемо завдання визначення залежності кількості членів колективу, що звільнилися, від середньої зарплати на 6 промислових підприємствах.

Завдання. На шести підприємствах проаналізували середньомісячну заробітну плату та кількість працівників, які звільнилися за власним бажанням. У табличній формі маємо:

Кількість звільнених

Зарплата

30000 рублів

35000 рублів

40000 рублів

45000 рублів

50000 рублів

55000 рублів

60000 рублів

Для завдання визначення залежності кількості працівників, що звільнилися, від середньої зарплати на 6 підприємствах модель регресії має вигляд рівняння Y = а 0 + а 1 x 1 +…+а k x k , де х i — що впливають змінні, a i — коефіцієнти регресії, a k — число факторів.

Для цього завдання Y — це показник співробітників, що звільнилися, а впливаючий фактор — зарплата, яку позначаємо X.

Використання можливостей табличного процесора «Ексель»

Аналізу регресії в Excel має передувати застосування наявних табличних даних вбудованих функцій. Однак для цього краще скористатися дуже корисною надбудовою «Пакет аналізу». Для його активації потрібно:

  • з вкладки "Файл" перейти до розділу "Параметри";
  • у вікні вибрати рядок «Надбудови»;
  • клацнути на кнопці «Перейти», розташованої внизу, праворуч від рядка «Управління»;
  • поставити галочку поруч із назвою «Пакет аналізу» та підтвердити свої дії, натиснувши «Ок».

Якщо все зроблено правильно, у правій частині вкладки "Дані", розташованому над робочим листом "Ексель", з'явиться потрібна кнопка.

в Excel

Тепер, коли під рукою є всі необхідні віртуальні інструменти для здійснення економетричних розрахунків, можемо розпочати вирішення нашого завдання. Для цього:

  • клацаємо по кнопці «Аналіз даних»;
  • у вікні натискаємо на кнопку «Регресія»;
  • в вкладку, що з'явилася, вводимо діапазон значень для Y (кількість звільнених працівників) і для X (їх зарплати);
  • підтверджуємо свої дії, натиснувши кнопку «Ok».

В результаті програма автоматично заповнить новий аркуш табличного процесора даними аналізу регресії. Зверніть увагу! В Excel є можливість самостійно задати місце, якому ви надаєте перевагу для цієї мети. Наприклад, це може бути той самий лист, де знаходяться значення Y і X, або навіть нова книгаспеціально призначена для зберігання подібних даних.

Аналіз результатів регресії для R-квадрату

В Excel дані отримані в ході обробки даних прикладу, що розглядається, мають вигляд:

Насамперед, слід звернути увагу до значення R-квадрата. Він є коефіцієнтом детермінації. У цьому прикладі R-квадрат = 0,755 (75,5%), тобто розрахункові параметри моделі пояснюють залежність між параметрами, що розглядаються, на 75,5 %. Чим вище значення коефіцієнта детермінації, тим вибрана модель вважається застосовнішою для конкретної задачі. Вважається, що вона коректно визначає реальну ситуацію за значення R-квадрату вище 0,8. Якщо R-квадрату<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Аналіз коефіцієнтів

Число 64,1428 показує, яким буде значення Y, якщо всі змінні xi в моделі, що розглядається, обнуляться. Іншими словами можна стверджувати, що на значення аналізованого параметра впливають інші фактори, не описані в конкретній моделі.

Наступний коефіцієнт -0,16285, розташований у осередку B18, показує вагомість впливу змінної Х на Y. Це означає, що середньомісячна зарплата співробітників у межах аналізованої моделі впливає кількість звільнених з вагою -0,16285, т. е. ступінь її впливу зовсім невелика. Знак «-» свідчить про те, що коефіцієнт має негативне значення. Це очевидно, оскільки всім відомо, що чим більша зарплата на підприємстві, тим менше людей висловлюють бажання розірвати трудовий договір чи звільняється.

Множинна регресія

Під таким терміном розуміється рівняння зв'язку з кількома незалежними змінними видами:

y=f(x 1 +x 2 +…x m) + ε, де y — це результативна ознака (залежна змінна), а x 1 , x 2 , …x m — ознаки-фактори (незалежні змінні).

Оцінка параметрів

Для множинної регресії (МР) її здійснюють, використовуючи метод найменших квадратів (МНК). Для лінійних рівнянь виду Y = a + b 1 x 1 +…+b m x m + ε будуємо систему нормальних рівнянь (див. нижче)

Щоб зрозуміти принцип методу, розглянемо двофакторний випадок. Тоді маємо ситуацію, що описується формулою

Звідси отримуємо:

де σ - це дисперсія відповідної ознаки, відображеної в індексі.

МНК застосуємо до рівняння МР в масштабі, що стандартизується. У такому разі отримуємо рівняння:

в якому t y , t x 1, ... t xm - Змінні, що стандартизуються, для яких середні значення рівні 0; β i – стандартизовані коефіцієнти регресії, а середньоквадратичне відхилення – 1.

Зверніть увагу, що всі β i в даному випадку задані як нормовані та централізовані, тому їх порівняння між собою вважається коректним та допустимим. Крім того, прийнято здійснювати відсівання факторів, відкидаючи ті з них, які мають найменші значення βi.

Завдання з використанням рівняння лінійної регресії

Припустимо, є таблиця динаміки ціни конкретного товару протягом останніх 8 місяців. Необхідно ухвалити рішення про доцільність придбання його партії за ціною 1850 руб./т.

номер місяця

назва місяця

ціна товару N

1750 рублів за тонну

1755 рублів за тонну

1767 рублів за тонну

1760 рублів за тонну

1770 рублів за тонну

1790 рублів за тонну

1810 рублів за тонну

1840 рублів за тонну

Для вирішення цього завдання в табличному процесорі «Ексель» потрібно задіяти вже відомий за наведеним вище прикладом інструмент «Аналіз даних». Далі вибирають розділ «Регресія» та задають параметри. Потрібно пам'ятати, що у полі «Вхідний інтервал Y» має вводитися діапазон значень для залежної змінної (у разі ціни на товар у конкретні місяці року), а «Вхідний інтервал X» — для незалежної (номер місяця). Підтверджуємо дії натисканням OK. На новому аркуші (якщо було зазначено) отримуємо дані для регресії.

Будуємо за ними лінійне рівняння виду y=ax+b, де як параметри a і b виступають коефіцієнти рядка з найменуванням номера місяця та коефіцієнти та рядки «Y-перетин» з аркуша з результатами регресійного аналізу. Таким чином, лінійне рівняння регресії (УР) для задачі 3 записується у вигляді:

Ціна товару N = 11,714* номер місяця + 1727,54.

або в позначеннях алгебри

y = 11,714 x + 1727,54

Аналіз результатів

Щоб вирішити, чи адекватно отримане рівняння лінійної регресії, використовуються коефіцієнти множинної кореляції (КМК) та детермінації, а також критерій Фішера та критерій Стьюдента. У таблиці «Ексель» з результатами регресії вони виступають під назвами множинний R, R-квадрат, F-статистика та t-статистика відповідно.

КМК R дає можливість оцінити тісноту ймовірнісного зв'язку між незалежною та залежною змінними. Її високе значення свідчить про досить сильний зв'язок між змінними «Номер місяця» та «Ціна товару N у рублях за 1 тонну». Проте характер цього зв'язку залишається невідомим.

Квадрат коефіцієнта детермінації R 2 (RI) є числову характеристику частки загального розкиду і показує, розкид якої частини експериментальних даних, тобто. значень залежної змінної відповідає рівнянню лінійної регресії У даній задачі ця величина дорівнює 84,8%, тобто статистичні дані з високим ступенем точності описуються отриманим УР.

F-статистика, яка називається також критерієм Фішера, використовується для оцінки значущості лінійної залежності, спростовуючи або підтверджуючи гіпотезу про її існування.

(Критерій Стьюдента) допомагає оцінювати значущість коефіцієнта при невідомій чи вільного члена лінійної залежності. Якщо значення t-критерію > t кр, то гіпотеза про незначущість вільного члена лінійного рівняннявідкидається.

У розглянутій задачі для вільного члена за допомогою інструментів «Ексель» було отримано, що t=169,20903, а p=2,89Е-12, тобто маємо нульову ймовірність того, що буде відкинута вірна гіпотеза про незначущість вільного члена. Для коефіцієнта за невідомої t=5,79405, а p=0,001158. Іншими словами ймовірність того, що буде відкинута вірна гіпотеза про незначущість коефіцієнта за невідомої, дорівнює 0,12%.

Отже, можна стверджувати, що отримане рівняння лінійної регресії адекватно.

Завдання про доцільність купівлі пакету акцій

Множинна регресія в Excel виконується з використанням того ж інструменту «Аналіз даних». Розглянемо конкретне прикладне завдання.

Керівництво компанія «NNN» має ухвалити рішення про доцільність купівлі 20% пакету акцій АТ «MMM». Вартість пакету (СП) складає 70 млн. американських доларів. Фахівцями NNN зібрані дані про аналогічні угоди. Було ухвалено рішення оцінювати вартість пакета акцій за такими параметрами, вираженими в мільйонах американських доларів, як:

  • кредиторська заборгованість (VK);
  • Об `єм річного обороту(VO);
  • дебіторська заборгованість (VD);
  • вартість основних фондів (СОФ).

Крім того, використовується параметр заборгованості підприємства із зарплати (V3 П) у тисячах американських доларів.

Рішення засобами табличного процесора Excel

Насамперед, необхідно скласти таблицю вихідних даних. Вона має такий вигляд:

  • викликають вікно "Аналіз даних";
  • обирають розділ «Регресія»;
  • у віконце «Вхідний інтервал Y» вводять діапазон значень залежних змінних зі стовпця G;
  • клацають по іконці з червоною стрілкою праворуч від вікна "Вхідний інтервал X" і виділяють на аркуші діапазон всіх значень зі стовпців B, C, D, F.

Позначають пункт «Новий робочий лист» та натискають «Ok».

Отримують аналіз регресії для цього завдання.

Вивчення результатів та висновки

«Збираємо» із заокруглених даних, представлених вище на аркуші табличного процесора Excel, рівняння регресії:

СП = 0,103 * СОФ + 0,541 * VO - 0,031 * VK + 0,405 * VD +0,691 * VZP - 265,844.

У більш звичному математичному виглядійого можна записати, як:

y = 0,103 * x1 + 0,541 * x2 - 0,031 * x3 +0,405 * x4 +0,691 * x5 - 265,844

Дані для АТ «MMM» представлені у таблиці:

Підставивши їх у рівняння регресії, одержують цифру в 64,72 млн американських доларів. Це означає, що акції АТ «MMM» не варто купувати, оскільки їхня вартість у 70 млн американських доларів досить завищена.

Як бачимо, використання табличного процесора «Ексель» та рівняння регресії дозволило ухвалити обґрунтоване рішення щодо доцільності цілком конкретної угоди.

Тепер ви знаєте, що таке регресія. Приклади в Excel, розглянуті вище, допоможуть вам вирішити практичні завдання з галузі економетрики.

Запитання:

4. Оцінка параметрів лінійної моделі множинної регресії.

5. Оцінка якості множинної лінійної регресії.

6. Аналіз та прогнозування на основі багатофакторних моделей.

Множинна регресія є узагальненням парної регресії. Вона використовується для опису залежності між пояснюється (залежною) зміною У і пояснюють (незалежними) змінними Х 1 Х 2 ... Х к . Множинна регресія може бути як лінійна, і нелінійна, але найбільшого поширення економіки отримала лінійна множинна регресія.

Теоретична лінійна модельмножинної регресії має вигляд:

відповідну вибіркову регресію позначимо:

Як і парної регресії випадковий член ε повинен задовольняти основним припущенням регресійного аналізу. Тоді за допомогою МНК отримують найкращі незміщені та ефективні оцінки параметрів теоретичної регресії. Крім того змінні Х 1, Х 2, ..., Х k повинні бути некорельовані (лінійно незалежні) один з одним. Для того, щоб записати формули для оцінки коефіцієнтів регресії (2), отримані на основі МНК, введемо такі позначення:

Тоді можна записати у векторно-матричній формі теоретичну модель:

та вибіркову регресію

МНК приводить до наступної формули для оцінки вектора коефіцієнтів вибіркової регресії:

(3)

Для оцінки коефіцієнтів множинної лінійної регресії з двома незалежними змінними , Можна вирішити систему рівнянь:

(4)

Як і парної лінійної регресії для множинної регресії розраховується стандартна помилка регресії S:

(5)

та стандартні помилки коефіцієнтів регресії:

(6)

значимість коефіцієнтів перевіряється з допомогою t-критерію.

має поширення Стьюдента з числом ступенів свободи v= n-k-1.

Для оцінки якості регресії використовується коефіцієнт (індекс) детермінації:

, (8)

що ближче до 1, то вище якість регресії.

Для перевірки значущості коефіцієнта детермінації використовується критерій Фішера чи F-статистика.



(9)

з v 1=k, v 2=n-k-1 ступенями свободи.

У багатофакторній регресії додавання додаткових змін, що пояснюють, збільшує коефіцієнт детермінації. Для компенсації такого збільшення вводиться скоригований (або нормований) коефіцієнт детермінації:

(10)

Якщо збільшення частки регресії, що пояснюється при додаванні нової змінної мало, то може зменшитися. Отже, додавати нову змінну недоцільно.

Приклад 4:

Нехай розглядається залежність прибутку підприємства від витрат за нове обладнання та техніку і від витрат за підвищення кваліфікації працівників. Зібрано статистичні дані щодо 6 однотипних підприємств. Дані у млн. ден. од. наводяться у таблиці 1.

Таблиця 1

Побудувати двофакторну лінійну регресію та оцінити її значимість. Введемо позначення:

Транспонуємо матрицю Х:

Звернення цієї матриці:

таким чином залежність прибутку від витрат на нове обладнання та техніку та від витрат на підвищення кваліфікації працівників можна описати наступною регресією:

Використовуючи формулу (5), де k=2 розрахуємо стандартну помилку регресії S=0,636.

Стандартні помилки коефіцієнтів регресії розрахуємо, використовуючи формулу (6):

Аналогічно:

Перевіримо значущість коефіцієнтів регресії а1, а2. порахуємо t розрах.

Виберемо рівень значущості, число ступенів свободи

означає коефіцієнт а 1значущий.

Оцінимо значущість коефіцієнта а 2:

Коефіцієнт а 2незначущий.

Розрахуємо коефіцієнт детермінації за формулою (7). Прибуток підприємства на 96% залежить від витрат на нове обладнання та техніку та підвищення кваліфікації на 4% від інших та випадкових факторів. Перевіримо значущість коефіцієнта детермінації. Розрахуємо F розрах.:

т.ч. коефіцієнт детермінації значимий, рівняння регресії значимо.

Велике значення в аналізі на основі багатофакторної регресії має порівняння впливу факторів на залежний показник. Коефіцієнти регресії для цієї мети не використовується, через відмінності одиниць вимірювання та різного ступеняколивання. Від цих недоліків вільні коефіцієнти еластичності:

Еластичність показує, наскільки відсотків у середньому змінюється залежний показник при зміні змінної на 1% за умови незмінності значень інших змінних. Чим більше, тим більше вплив відповідної змінної. Як і парної регресії для множинної регресії розрізняють точковий прогноз і інтервальний прогноз. Точковий прогноз (число) отримують при підстановці прогнозних значень незалежних змінних рівняння множинної регресії. Позначимо через:

(12)

вектор прогнозних значень незалежних змінних, тоді точковий прогноз

Стандартна помилкапередбачення у разі множинної регресії визначається так:

(15)

Виберемо рівень значущості по таблиці розподілу Стьюдента. Для рівня значущості α та числа ступенів свободи ν = n-k-1 знайдемо t кр. Тоді справжнє значення у р з ймовірністю 1-α потрапляє в інтервал:


Тема 5:

Тимчасові ряди.

Запитання:

4. Основні поняття часових рядів.

5. Основна тенденція розвитку – тренд.

6. Побудова адитивної моделі.

Тимчасові рядиявляють собою сукупність значень якогось показника за кілька послідовних моментів або періодів часу.

Момент (або період) часу позначають t, а значення показника на момент часу позначають у(t) і називають рівнем ряду .

Кожен рівень тимчасового ряди формується під впливом великої кількості факторів, які можна поділити на 3 групи:

Тривалі, постійно діючі чинники, які на явище визначальний вплив і формують основну тенденцію низки – тренд T(t).

Короткочасні періодичні чинники, що формують сезонні коливання низки S(t).

Випадкові фактори, що формують випадкові зміни рівнів ряду ε(t).

Адитивною моделлютимчасового ряду називається модель, в якій кожен рівень ряду представлений сумою тренду, сезонною та випадкової компоненти:

Мультиплікативна модель– це модель, у якій кожен рівень низки є твір перелічених компонент:

Вибір однієї з моделей складає основі аналізу структури сезонних коливань. Якщо амплітуда коливань приблизно стала, то будують адитивну модель. Якщо амплітуда зростає, мультиплікативну модель.

Основне завдання економетричного аналізу полягає у виявленні кожної з перерахованих компонентів.

Основною тенденцією розвитку (трендом)називають плавну та стійку зміну рівнів ряду в часі вільне від випадкових та сезонних коливань.

Завдання виявлення основних тенденцій розвитку називається вирівнюванням тимчасового ряду .

До методів вирівнювання часового ряду відносять:

1) метод укрупнення інтервалів,

2) метод ковзної середньої,

3) аналітичне вирівнювання.

1) Збільшуються періоди часу, до яких належать рівні низки. Потім за укрупненими інтервалами підсумовуються рівні низки. Коливання рівнях, обумовлені випадковими причинами, взаємно погашаються. Точніше виявиться загальна тенденція.

2) Для визначення числа перших рівнів ряду розраховується середня величина. Потім розраховується середня з такої кількості рівнів ряду, починаючи з другого рівня і т.д. середня величина ковзає рядом динаміки, просуваючись на 1 термін (момент часу). Число рівнів ряду, яким розраховується середня, може бути парним і непарним. Для непарного ковзну середню відносять до середини періоду ковзання. Для парного періоду перебування середнього значення не зіставляють із визначенням t, а застосовують процедуру центрування, тобто. обчислюють середнє з двох послідовних ковзних середніх.

3) Побудова аналітичної функції, Що характеризує залежність рівня від часу. Для побудови трендів застосовують такі функції:

Параметри трендів визначаються з допомогою МНК. Вибір найкращої функції складає основі коефіцієнта R 2 .

Побудову адитивної моделі проведемо з прикладу.

Приклад 7:

Є поквартальні дані про обсяги споживання електроенергії в деякому районі за 4 роки. Дані у млн. кВт у таблиці 1.

Таблиця 1

Побудувати модель часового ряду.

У цьому прикладі як незалежну змінну розглядаємо номер кварталу , а як залежну змінну y(t) споживання електроенергії за квартал.

З діаграми розсіювання можна побачити, що тенденція (тренд) має лінійний характер. Видно також наявність сезонних коливань (період = 4) однакової амплітуди, тому будуватимемо адитивну модель.

Побудова моделі включає такі кроки:

1. Проведемо вирівнювання вихідного ряду методом ковзної середньої за 4 квартали та проведемо центрування:

1.1. Підсумуємо рівні ряду послідовно за кожні 4 квартали зі зрушенням на 1 момент часу.

1.2. Розділивши отримані суми, 4 знайдемо ковзаючі середні.

1.3. Приводимо ці значення у відповідність до фактичних моментів часу, для чого знайдемо середнє значення з двох послідовних ковзних середніх – центровані ковзні середні.

2. Розрахуємо сезонну варіацію. Сезонна варіація (t) = y(t) - центрована ковзна середня. Побудуємо таблицю 2 .

Таблиця 2

Наскрізний № кварталу t Споживання електроенергії Y(t) Ковзна середня за 4 квартали Центрована ковзна середня Оцінка сезонної варіації
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. На основі сезонної варіації у таблиці 3 розраховується сезонна компонента.

Показники Рік Номер кварталу року I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Разом 1,8 -5,875 -3,825 8,125 Сума
Середнє 0,6 -1,958 -1,275 2,708 0,075
Сезонна компонента 0,581 -1,977 -1,294 2,690

4. Усуваємо сезонну компонентуз вихідних рівнів ряду:

Висновок:

Адитивна модель пояснює 98,4% загальної варіаціїрівнів вихідного часового ряду.

Натиснувши на кнопку "Завантажити архів", ви завантажуєте потрібний вам файл безкоштовно.
Перед скачуванням даного файлузгадайте про ті хороші реферати, контрольні, курсові, дипломних роботах, статтях та інших документах, які лежать незатребуваними у вашому комп'ютері. Це ваша праця, вона повинна брати участь у розвитку суспільства та приносити користь людям. Знайдіть ці роботи та відправте в базу знань.
Ми та всі студенти, аспіранти, молоді вчені, які використовують базу знань у своєму навчанні та роботі, будемо вам дуже вдячні.

Щоб завантажити архів з документом, введіть п'ятизначне число в поле, розташоване нижче, і натисніть кнопку "Завантажити архів"

###### ## ## ###### ######
## ### ### ## ##
## #### ## ##### ##
## ## ## ## ## ##
## ## ###### ## ## ## ## ##
#### ## ###### #### ####

Введіть число, зображене вище:

Подібні документи

    Основи побудови та тестування адекватності економічних моделеймножинної регресії, проблема їхньої специфікації та наслідки помилок. Методичне та інформаційне забезпечення множинної регресії. Числовий прикладмоделі множинної регресії

    курсова робота , доданий 10.02.2014

    Поняття моделі множинної регресії. Сутність методу найменших квадратів, що використовується визначення параметрів рівняння множинної лінійної регресії. Оцінка якості припасування регресійного рівняннядо даних. Коефіцієнт детермінації.

    курсова робота , доданий 22.01.2015

    Побудова моделі множинної лінійної регресії за заданими параметрами. Оцінка якості моделі за коефіцієнтами детермінації та множинної кореляції. Визначення значущості рівняння регресії на основі F-критерію Фішера та t-критерію Стьюдента.

    контрольна робота , доданий 01.12.2013

    Побудова рівняння множинної регресії в лінійній формі повним наборомфакторів; відбір інформативних факторів. Перевірка значущості рівняння регресії за критерієм Фішера та статистичної значущості параметрів регресії за критерієм Стьюдента.

    лабораторна робота , доданий 17.10.2009

    Опис класичної лінійної моделі множинної регресії. Аналіз матриці парних коефіцієнтів кореляції на наявність мультиколінеарності. Оцінка моделі парної регресії із найбільш значущим чинником. Графічна побудова інтервалу прогнозу.

    курсова робота , доданий 17.01.2016

    Чинники, що формують ціну квартир в будинках, що будуються в Санкт-Петербурзі. Упорядкування матриці парних коефіцієнтів кореляції вихідних змінних. Тестування помилок рівняння множинної регресії на гетероскедастичність. Тест Гельфельда Квандта.

    контрольна робота , доданий 14.05.2015

    Оцінка розподілу змінної Х1. Моделювання взаємозв'язку між змінними У та Х1 за допомогою лінійної функції та методом множинної лінійної регресії. Порівняння якості збудованих моделей. Складання точкового прогнозу за заданими значеннями.

    курсова робота , доданий 24.06.2015

Доброго дня, шановні читачі.
У минулих статтях, на практичних прикладах, мною були показані способи вирішення завдань класифікації (завдання кредитного скорингу) та основ аналізу текстової інформації (завдання про паспорти). Сьогодні ж мені хотілося б торкнутися іншого класу завдань, а саме відновлення регресії. Завдання цього класу, як правило, використовуються при прогнозуванні.
Для прикладу розв'язання задач прогнозування, я взяв набір даних Energy efficiency з найбільшого репозиторію UCI . Як інструменти за традицією будемо використовувати Python з аналітичними пакетами pandas і scikit-learn.

Опис набору даних та постановка задачі

Даний набір даних, який описує наступні атрибути приміщення:

У ньому – характеристики приміщення на підставі яких проводитиметься аналіз, а – значення навантаження, які треба спрогнозувати.

Попередній аналіз даних

Для початку завантажимо наші дані та подивимося на них:

From pandas import read_csv, DataFrame from sklearn.neighbors import KNeighborsRegressor from sklearn.linear_model import LinearRegression, LogisticRegression from sklearn.svm import SVR from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import r2_score from sklearn.cross_validation import train_test_split dataset = read_csv("EnergyEfficiency /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Тепер давайте подивимося, чи не пов'язані між собою які-небудь атрибути. Зробити це можна, розрахувавши коефіцієнти кореляції для всіх стовпців. Як це зробити було описано в попередній статті:

Dataset.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0.000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0.000000e+00 0.889431 0.895785
X6 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 1.000000 0.000000e+00 0.000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0.000000e+00 -1.079129e-16 0.000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Як можна помітити з нашої матриці, корелюють між собою такі стовпи (Значення коефіцієнта кореляції більше 95%):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
Тепер давайте виберемо, які стовпці наших пар ми можемо прибрати з нашої вибірки. Для цього, у кожній парі, виберемо стовпці, які більшою мірою впливають на прогнозні значення Y1і Y2і залишимо їх, а решту вилучимо.
Як можна помітити і матриці з коефіцієнтами кореляції на y1 ,y2 більше значенняздійснюють X2 і X5 , ніж X1 та X4, таким чином ми можемо останні стовпці ми можемо видалити.

Dataset = dataset.drop(["X1","X4"], axis=1) dataset.head()
Крім цього, можна помітити, що поля Y1 і Y2 дуже тісно корелюють між собою. Але, тому що нам треба спрогнозувати обидва значення, ми їх залишаємо «як є».

Вибір моделі

Відокремимо від нашої вибірки прогнозні значення:

Trg = dataset[["Y1","Y2"]] trn = dataset.drop(["Y1","Y2"], axis=1)
Після обробки даних можна перейти до побудови моделі. Для побудови моделі будемо використовувати такі методи:

Теорію про дані методи можна почитати в курсі лекцій К.В.Воронцова з машинного навчання.
Оцінку будемо проводити за допомогою коефіцієнта детермінації ( R-квадрат). Цей коефіцієнтвизначається так:

Де - умовна дисперсія залежної величини уза фактором х.
Коефіцієнт приймає значення на проміжку і чим він ближче до 1 тим сильніша залежність.
Ну що ж тепер можна перейти безпосередньо до побудови моделі та вибору моделі. Давайте помістимо всі наші моделі в один список для зручності подальшого аналізу:

Models =
Отже моделі готові, тепер ми розіб'ємо наші вихідні дані на 2 підвибори: тестовуі навчальну. Хто читав мої попередні статті, знає, що зробити це можна за допомогою функції train_test_split() з пакету scikit-learn:

Xtrn, Xtest, Ytrn, Ytest = train_test_split (trn, trg, test_size = 0.4)
Тепер, тому що нам треба спрогнозувати 2 параметри, треба побудувати регресію для кожного з них. Крім цього, для подальшого аналізу, можна записати отримані результати до тимчасового DataFrame. Зробити це можна так:

#створюємо часові структури TestModels = DataFrame() tmp = () #для кожної моделі зі списку for model in models: #отримуємо ім'я моделі m = str(model) tmp["Model"] = m[:m.index("( ")] #для кожного стовпцям результуючого набору for i in xrange(Ytrn.shape): #навчаємо модель model.fit(Xtrn, Ytrn[:,i]) #обчислюємо коефіцієнт детермінації tmp["R2_Y%s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #записуємо дані та підсумковий DataFrame TestModels = TestModels.append() #робимо індекс за назвою моделі TestModels.set_index("Model", inplace= True)
Як можна помітити з вище коду, для розрахунку коефіцієнта використовується функція r2_score().
Отже, дані для аналізу отримано. Давайте тепер побудуємо графіки та подивимося яка модель показала найкращий результат:

Fig, axes = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="(!LANG:R2_Y1)") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Аналіз результатів та висновки

З графіків, наведених вище, можна зробити висновок, що краще за інших із завданням впорався метод RandomForest(Випадковий ліс). Його коефіцієнти детермінації вищі за інші за обома змінними:
ля подальшого аналізу давайте заново навчимо нашу модель:

Model = models model.fit(Xtrn, Ytrn)
При уважному розгляді може виникнути питання, чому в попередній раз і ділили залежну вибірку Ytrnна змінні (по стовпцях), а тепер ми цього не робимо.
Справа в тому, що деякі методи, такі як RandomForestRegressorможе працювати з кількома прогнозованими змінними, а інші (наприклад SVR) можуть працювати лише з однією змінною. Тому на попередньому навчанні ми використовували розбиття по стовпцях, щоб уникнути помилки в процесі побудови деяких моделей.
Вибрати модель це, звичайно ж, добре, але ще непогано б мати інформацію, як кожен фактор впливає на прогнозне значення. Для цього модель має властивість feature_importances_.
За допомогою нього можна подивитися вагу кожного фактора в підсумковій моделі:

Model.feature_importances_
array([ 0.40717901, 0.11394948, 0.34984766, 0.00751686, 0.09158358,
0.02992342])

У нашому випадку видно, що найбільше на навантаження при обігріві та охолодженні впливають загальна висота та площа. Їхній загальний внесок у прогнозній моделі близько 72%.
Також необхідно зазначити, що за вищезгаданою схемою можна подивитися вплив кожного фактора окремо на обігрів та окремо на охолодження, але тому що ці фактори у нас дуже тісно корелюють між собою (), ми зробили загальний висновок за ними обом, який і був написаний вище .

Висновок

У статті я постарався показати основні етапи при регресійний аналізданих за допомогою Python та аналітичних пакетів pandasі scikit-learn.
Необхідно відзначити, що набір даних спеціально вибирався таким чином, щоб бути максимально формалізованим і первинна обробкавхідних даних було б мінімальне. На мій погляд стаття буде корисною тим, хто тільки починає свій шлях в аналізі даних, а також тим, хто має хорошу теоретичну базу, але вибирає інструментарій для роботи.