Биографии Характеристики Анализ

Методи за регресионен анализ. Регресионен анализ - статистически метод за изследване на зависимостта на случайна величина от променливи

При наличието на корелация между факторните и резултантните признаци, лекарите често трябва да определят с каква стойност може да се промени стойността на един знак, когато друг се промени от мерна единица, общоприета или установена от самия изследовател.

Например, как ще се промени телесното тегло на учениците от 1-ви клас (момичета или момчета), ако височината им се увеличи с 1 см. За тази цел се използва методът на регресионен анализ.

Най-често методът на регресионния анализ се използва за разработване на нормативни скали и стандарти за физическо развитие.

  1. Определение за регресия. Регресията е функция, която позволява, въз основа на средната стойност на един атрибут, да се определи средната стойност на друг атрибут, който е в корелация с първия.

    За тази цел се използва коефициентът на регресия и редица други параметри. Например, можете да изчислите средния брой настинки при определени стойности на средната месечна температура на въздуха през есенно-зимния период.

  2. Определяне на регресионния коефициент. Коефициентът на регресия е абсолютната стойност, с която стойността на един атрибут се променя средно, когато друг атрибут, свързан с него, се променя с установената мерна единица.
  3. Формула за коефициент на регресия. R y / x \u003d r xy x (σ y / σ x)
    където R y / x - коефициент на регресия;
    r xy - коефициент на корелация между признаците x и y;
    (σ y и σ x) - стандартни отклонения на характеристиките x и y.

    В нашия пример;
    σ x = 4,6 (стандартно отклонение на температурата на въздуха през есенно-зимния период;
    σ y = 8,65 (стандартно отклонение на броя на инфекциозните настинки).
    Следователно R y/x е регресионният коефициент.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, т.е. при понижаване на средната месечна температура на въздуха (x) с 1 градус средният брой инфекциозни настинки (y) през есенно-зимния период ще се промени с 1,8 случая.

  4. Регресионно уравнение. y \u003d M y + R y / x (x - M x)
    където y е средната стойност на атрибута, която трябва да се определи, когато се промени средната стойност на друг атрибут (x);
    x - известна средна стойност на друг признак;
    R y/x - коефициент на регресия;
    M x, M y - известни средни стойности на характеристиките x и y.

    Например, средният брой инфекциозни настинки (y) може да се определи без специални измервания при всяка средна стойност на средната месечна температура на въздуха (x). Така че, ако x = - 9 °, R y / x = 1,8 заболявания, M x = -7 °, M y = 20 заболявания, тогава y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 заболявания.
    Това уравнение се прилага в случай на праволинейна връзка между две характеристики (x и y).

  5. Предназначение на регресионното уравнение. Регресионното уравнение се използва за начертаване на регресионната линия. Последното позволява, без специални измервания, да се определи всяка средна стойност (y) на един атрибут, ако стойността (x) на друг атрибут се промени. Въз основа на тези данни се изгражда графика - регресионна линия, който може да се използва за определяне на средния брой настинки при всяка стойност на средната месечна температура в диапазона между изчислените стойности на броя на настинките.
  6. Регресионна сигма (формула).
    където σ Ru/x - сигма (стандартно отклонение) на регресията;
    σ y е стандартното отклонение на характеристиката y;
    r xy - коефициент на корелация между признаците x и y.

    Така че, ако σ y е стандартното отклонение на броя на настинките = 8,65; r xy - коефициентът на корелация между броя на простудните заболявания (y) и средната месечна температура на въздуха през есенно-зимния период (x) е - 0,96, тогава

  7. Целта на сигма регресията. Дава характеристика на мярката на разнообразието на получената характеристика (y).

    Например, той характеризира разнообразието на броя на простудните заболявания при определена стойност на средната месечна температура на въздуха през есенно-зимния период. Така средният брой на настинки при температура на въздуха x 1 \u003d -6 ° може да варира от 15,78 заболявания до 20,62 заболявания.
    При x 2 = -9°, средният брой на настинки може да варира от 21,18 заболявания до 26,02 заболявания и т.н.

    Регресионната сигма се използва при изграждането на регресионна скала, която отразява отклонението на стойностите на ефективния атрибут от средната му стойност, нанесена на линията на регресия.

  8. Данни, необходими за изчисляване и начертаване на регресионната скала
    • коефициент на регресия - Ry/x;
    • регресионно уравнение - y \u003d M y + R y / x (x-M x);
    • регресионна сигма - σ Rx/y
  9. Последователността на изчисленията и графично представяне на регресионната скала.
    • определете коефициента на регресия по формулата (вижте параграф 3). Например, трябва да се определи колко средно ще се промени телесното тегло (на определена възраст в зависимост от пола), ако средната височина се промени с 1 см.
    • според формулата на регресионното уравнение (вижте параграф 4), определете какво ще бъде средното, например телесно тегло (y, y 2, y 3 ...) * за определена стойност на растеж (x, x 2, х 3 ...).
      ________________
      * Стойността на "y" трябва да се изчисли за поне три известни стойности на "x".

      В същото време са известни средните стойности на телесното тегло и височината (M x и M y) за определена възраст и пол

    • изчислете сигмата на регресията, като знаете съответните стойности на σ y и r xy и замените техните стойности във формулата (вижте параграф 6).
    • въз основа на известните стойности x 1, x 2, x 3 и съответните им средни стойности y 1, y 2 y 3, както и най-малките (y - σ ru / x) и най-големите (y + σ ru / x) стойностите \u200b\u200b(y) конструират регресионна скала.

      За графично представяне на регресионната скала, стойностите x, x 2, x 3 (ос y) първо се маркират на графиката, т.е. изгражда се регресионна линия, например зависимостта на телесното тегло (y) от височината (x).

      След това в съответните точки y 1 , y 2 , y 3 се отбелязват числените стойности на регресионната сигма, т.е. на графиката намерете най-малката и най-голямата стойност на y 1 , y 2 , y 3 .

  10. Практическо използване на регресионната скала. Разработват се нормативни скали и стандарти, по-специално за физическо развитие. Според стандартната скала е възможно да се даде индивидуална оценка на развитието на децата. В същото време физическото развитие се оценява като хармонично, ако например при определена височина телесното тегло на детето е в рамките на една регресионна сигма към средната изчислена единица телесно тегло - (y) за дадена височина (x) ( y ± 1 σ Ry / x).

    Физическото развитие се счита за дисхармонично по отношение на телесното тегло, ако телесното тегло на детето за определен ръст е в рамките на втората регресионна сигма: (y ± 2 σ Ry/x)

    Физическото развитие ще бъде рязко дисхармонично както поради наднормено, така и поради недостатъчно телесно тегло, ако телесното тегло за определен ръст е в рамките на третата сигма на регресията (y ± 3 σ Ry/x).

Според резултатите от статистическо изследване на физическото развитие на 5-годишни момчета е известно, че средният им ръст (x) е 109 cm, а средното телесно тегло (y) е 19 kg. Коефициентът на корелация между височината и телесното тегло е +0,9, стандартните отклонения са представени в таблицата.

Задължително:

  • изчисляване на коефициента на регресия;
  • използвайки регресионното уравнение, определете какво ще бъде очакваното телесно тегло на 5-годишни момчета с височина, равна на x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • изчислява регресионната сигма, изгражда регресионна скала, представя резултатите от нейното решение графично;
  • направи съответните заключения.

Условието на задачата и резултатите от нейното решение са представени в обобщената таблица.

маса 1

Условия на проблема Резултати от решението на проблема
регресионно уравнение сигма регресия регресионна скала (очаквано телесно тегло (в kg))
М σ r xy R y/x х При σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Височина (x) 109 см ± 4,4 см +0,9 0,16 100см 17.56 кг ± 0,35 кг 17,21 кг 17.91 кг
Телесно тегло (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18.81 кг 19,51 кг
120 см 20.76 кг 20.41 кг 21,11 кг

Решение.

Заключение.По този начин регресионната скала в рамките на изчислените стойности на телесното тегло ви позволява да я определите за всяка друга стойност на растежа или да оцените индивидуалното развитие на детето. За да направите това, възстановете перпендикуляра на регресионната линия.

  1. Власов В.В. Епидемиология. - М.: ГЕОТАР-МЕД, 2004. - 464 с.
  2. Лисицин Ю.П. Обществено здраве и здравеопазване. Учебник за средните училища. - М.: ГЕОТАР-МЕД, 2007. - 512 с.
  3. Медик В.А., Юриев В.К. Курс лекции по обществено здраве и здравеопазване: Част 1. Обществено здраве. - М.: Медицина, 2003. - 368 с.
  4. Миняев В.А., Вишняков Н.И. и др.. Социална медицина и организация на здравеопазването (Ръководство в 2 тома). - Санкт Петербург, 1998. -528 с.
  5. Кучеренко В.З., Агарков Н.М. и др.. Социална хигиена и организация на здравеопазването (Урок) - Москва, 2000. - 432 с.
  6. С. Гланц. Медико-биологична статистика. По от английски. - М., Практика, 1998. - 459 с.

А) Графичен анализ на проста линейна регресия.

Просто уравнение на линейна регресия y=a+bx. Ако има корелация между случайните променливи Y и X, тогава стойността y = ý + ,

където ý е теоретичната стойност на y, получена от уравнението ý = f(x),

 е грешката на отклонението на теоретичното уравнение ý от действителните (експериментални) данни.

Уравнението за зависимостта на средната стойност на ý от x, т.е. ý = f (x), се нарича регресионно уравнение. Регресионният анализ се състои от четири стъпки:

1) поставяне на задачата и установяване на причините за връзката.

2) ограничаване на обекта на изследване, събиране на статистическа информация.

3) избор на уравнението на връзката въз основа на анализа и характера на събраните данни.

4) изчисляване на числени стойности, характеристики на корелация.

Ако две променливи са свързани по такъв начин, че промяна в едната променлива съответства на систематична промяна в другата променлива, тогава се използва регресионен анализ за оценка и избор на уравнението на връзката между тях, ако тези променливи са известни. За разлика от регресионния анализ, корелационният анализ се използва за анализиране на тясността на връзката между X и Y.

Помислете за намиране на права линия в регресионния анализ:

Теоретично регресионно уравнение.

Терминът "проста регресия" показва, че величината на една променлива се оценява въз основа на познаване на друга променлива. За разлика от простата многовариантна регресия, тя се използва за оценка на променлива въз основа на познаване на две, три или повече променливи. Помислете за графичен анализ на проста линейна регресия.

Да приемем, че имаме резултатите от скрининговите тестове преди наемане на работа и производителността на труда.

Резултати от подбора (100 точки), х

Изпълнение (20 точки), y

Поставяйки точките върху графиката, получаваме диаграма на разсейване (поле). Използваме го за анализ на резултатите от тестовете за подбор и производителността на труда.

Нека анализираме регресионната линия с помощта на диаграмата на разсейване. При регресионния анализ винаги се посочват поне две променливи. Систематичната промяна в една променлива е свързана с промяна в друга. основна цел регресионен анализе да се оцени стойността на една променлива, ако стойността на другата променлива е известна. За цялостна задача е важна оценката на производителността на труда.

Независима променливав регресионния анализ дадено количество се използва като основа за анализа на друга променлива. В този случай това са резултатите от тестовете за подбор (по оста X).

зависима променливанаречена прогнозна стойност (по оста Y). При регресионен анализ може да има само една зависима променлива и множество независими променливи.

За прост регресионен анализ зависимостта може да бъде представена в двукоординатна система (x и y), по оста x - независима променлива, по оста y - зависима. Начертаваме пресечните точки по такъв начин, че на графиката да се представи двойка величини. Графиката се нарича точкова диаграма. Неговото изграждане е вторият етап от регресионния анализ, тъй като първият е изборът на анализираните стойности и събирането на примерни данни. По този начин регресионният анализ се прилага за статистически анализ. Връзката между примерните данни на диаграмата е линейна.

За да се оцени стойността на променливата y въз основа на променливата x, е необходимо да се определи позицията на линията, която най-добре представя връзката между x и y въз основа на местоположението на точките на диаграмата на разсейване. В нашия пример това е анализ на ефективността. Линията, начертана през точките на разсейване - регресионна линия. Един от начините за изграждане на регресионна линия въз основа на визуално изживяване е методът на свободна ръка. Нашата регресионна линия може да се използва за определяне на производителността на труда. При намиране на уравнението на регресионната линия

Често се използва методът на най-малките квадрати. Най-подходящата линия е тази, при която сумата на квадратите на отклоненията е минимална.

Математическото уравнение на линията на растеж представлява закона за растеж в аритметична прогресия:

при = аbх.

Y = а + bх– редуцираното уравнение с един параметър е най-простата форма на уравнението на ограничението. Приемливо е за средни стойности. За по-добро изразяване на връзката между хи при, се въвежда допълнителен коефициент на пропорционалност b, което показва наклона на регресионната линия.

Б) Построяване на теоретична регресионна линия.

Процесът на намирането му се състои в избора и обосновката на вида на кривата и изчисляването на параметрите а, b, си т.н. Процесът на изграждане се нарича изравняване, а запасът от криви, предлаган от мат. анализ, разнообразен. Най-често в икономическите задачи се използва семейство от криви, уравнения, които се изразяват с полиноми с цели положителни степени.

1)
- уравнение на права линия,

2)
е уравнението на хиперболата,

3)
е уравнението на параболата,

където ý са ординатите на теоретичната регресионна линия.

След като изберете вида на уравнението, е необходимо да намерите параметрите, от които зависи това уравнение. Например естеството на местоположението на точките в полето на разсейване показа, че теоретичната регресионна линия е права.

Точковата диаграма ви позволява да представите производителността на труда с помощта на регресионен анализ. В икономиката регресионният анализ прогнозира много характеристики, които влияят на крайния продукт (като се вземе предвид ценообразуването).

В) Критерият за най-малките рамки за намиране на права линия.

Един от критериите, които бихме могли да приложим за подходяща регресионна линия в диаграма на разсейване, се основава на избора на линия, за която сумата на квадратите на грешките ще бъде минимална.

Близостта на точките на разсейване до правата се измерва с ординатите на отсечките. Отклоненията на тези точки могат да бъдат положителни или отрицателни, но сумата от квадратите на отклоненията на теоретичната линия от експерименталната линия винаги е положителна и трябва да бъде минимална. Фактът, че всички точки на разсейване не съвпадат с позицията на регресионната линия, показва наличието на несъответствие между експерименталните и теоретичните данни. По този начин може да се каже, че никоя друга регресионна линия, освен намерената, не може да даде по-малка сума от отклонения между експериментални и експериментални данни. Следователно, след като намерихме теоретичното уравнение ý и линията на регресия, удовлетворяваме изискването на най-малките квадрати.

Това се прави с помощта на уравнението на ограничението
, използвайки формули за намиране на параметри аи b. Вземане на теоретичната стойност
и означаване на лявата страна на уравнението чрез f, получаваме функцията
от неизвестни параметри аи b. Стойности аи bще задоволи минимума на функцията fи се намират от частичните диференциални уравнения
и
. то необходимо условие, но за положителна квадратична функция това също е достатъчно условие за намиране аи b.

Нека изведем от уравненията на частните производни формулите за параметрите аи b:



получаваме система от уравнения:

където
– средноаритметични грешки.

Замествайки числови стойности, намираме параметрите аи b.

Има концепция
. Това е факторът на приближение.

Ако д < 33%, то модель приемлема для дальнейшего анализа;

Ако д> 33%, тогава вземаме хипербола, парабола и т.н. Това дава право на анализ в различни ситуации.

Извод: според критерия на коефициента на приближение най-подходящата линия е тази, за която

, и никоя друга регресионна линия за нашия проблем не дава минимум отклонения.

Г) Квадратична грешка на оценката, проверка на тяхната типичност.

За популация с по-малко от 30 параметъра на изследване ( н < 30), для проверки типичности параметров уравнения регрессии используется T-Критерий на ученика. Това изчислява действителната стойност T- критерии:

Оттук

където е остатъчната средна квадратична грешка. получено T аи T bв сравнение с критичните T кот таблицата на Студент, като се вземе предвид приетото ниво на значимост ( = 0,01 = 99% или  = 0,05 = 95%). П = f = к 1 = ме броят на параметрите на изследваното уравнение (степен на свобода). Например ако г = а + bx; м = 2, к 2 = f 2 = стр 2 = н – (м+ 1), където н- броят на изследваните характеристики.

T а < T к < T b .

Заключение: според параметрите на провереното за типичност регресионно уравнение се изгражда математически модел на връзката
. В този случай параметрите на използваната в анализа математическа функция (линейна, хипербола, парабола) получават съответните количествени стойности. Смисловото съдържание на така получените модели е, че те характеризират средната стойност на ефективния признак
от факторна черта х.

Д) Криволинейна регресия.

Доста често има криволинейна връзка, когато се установява променяща се връзка между променливите. Интензивността на увеличението (намаляването) зависи от нивото на намиране на X. Криволинейната зависимост може да бъде от различни видове. Например, разгледайте връзката между добива и валежите. С увеличаване на валежите при равни природни условия, интензивно увеличаване на добива, но до определена граница. След критичната точка валежите са излишни и добивът пада катастрофално. Примерът показва, че в началото връзката е положителна, а след това отрицателна. Критична точка - оптималното ниво на характеристиката X, което съответства на максималната или минималната стойност на характеристиката Y.

В икономиката такава зависимост се наблюдава между цена и потребление, производителност и трудов стаж.

параболична зависимост.

Ако данните показват, че увеличаването на атрибута на фактора води до увеличаване на резултантния атрибут, тогава уравнението от втори ред (парабола) се приема като регресионно уравнение.

. Коефициентите a,b,c се намират от частичните диференциални уравнения:

Получаваме система от уравнения:

Видове криволинейни уравнения:

,

,

Разумно е да се предположи, че съществува криволинейна връзка между производителността на труда и резултатите от тестовете за подбор. Това означава, че с разрастването на системата за точкуване производителността ще започне да намалява на някакво ниво, така че директният модел може да се окаже криволинеен.

Третият модел ще бъде хипербола и във всички уравнения вместо променливата x ще има израз.

В предишните бележки фокусът често е бил върху една цифрова променлива, като възвращаемост на взаимен фонд, време за зареждане на уеб страницата или консумация на безалкохолни напитки. В тази и следващите бележки ще разгледаме методи за прогнозиране на стойностите на числова променлива в зависимост от стойностите на една или повече други числови променливи.

Материалът ще бъде илюстриран с пример. Прогнозиране на обема на продажбите в магазин за дрехи.Вече 25 години веригата магазини за дискаунт дрехи Sunflowers непрекъснато се разширява. В момента обаче компанията няма систематичен подход при избора на нови обекти. Мястото, където компанията възнамерява да отвори нов магазин, се определя въз основа на субективни съображения. Критериите за избор са благоприятни условия за наем или идея на мениджъра за идеалното местоположение на магазина. Представете си, че сте началник на отдел „Специални проекти и планиране“. Имате задача да разработите стратегически план за отваряне на нови магазини. Този план трябва да съдържа прогноза за годишните продажби в новооткритите магазини. Вярвате, че продажбата на пространство е пряко свързана с приходите и искате да вземете предвид този факт в процеса на вземане на решения. Как разработвате статистически модел, който прогнозира годишните продажби въз основа на новия размер на магазина?

Обикновено регресионният анализ се използва за прогнозиране на стойностите на променлива. Целта му е да разработи статистически модел, който прогнозира стойностите на зависимата променлива или отговора от стойностите на поне една независима или обяснителна променлива. В тази бележка ще разгледаме проста линейна регресия - статистически метод, който ви позволява да предвидите стойностите на зависимата променлива Yпо стойностите на независимата променлива х. Следващите бележки ще опишат модел на множествена регресия, предназначен да предскаже стойностите на независимата променлива Yпо стойностите на няколко зависими променливи ( X 1 , X 2 , …, X k).

Изтеглете бележка в или формат, примери във формат

Видове регресионни модели

където ρ 1 е коефициентът на автокорелация; ако ρ 1 = 0 (без автокорелация), д≈ 2; ако ρ 1 ≈ 1 (положителна автокорелация), д≈ 0; ако ρ 1 = -1 (отрицателна автокорелация), д ≈ 4.

На практика прилагането на критерия на Дърбин-Уотсън се основава на сравнение на стойността дс критични теоретични стойности dLи d Uза даден брой наблюдения н, броят на независимите променливи на модела к(за проста линейна регресия к= 1) и ниво на значимост α. Ако д< d L , хипотезата за независимост на случайните отклонения се отхвърля (следователно има положителна автокорелация); ако D > d U, хипотезата не се отхвърля (т.е. няма автокорелация); ако d L< D < d U няма достатъчно причина за вземане на решение. Когато изчислената стойност днадвишава 2, тогава dLи d Uне се сравнява самият коефициент д, и изразът (4 – д).

За да изчислим статистиката на Durbin-Watson в Excel, обръщаме се към долната таблица на фиг. четиринадесет Теглене на баланс. Числителят в израз (10) се изчислява с помощта на функцията = SUMMQDIFF(масив1, масив2), а знаменателят = SUMMQ(масив) (фиг. 16).

Ориз. 16. Формули за изчисляване на статистиката на Дърбин-Уотсън

В нашия пример д= 0,883. Основният въпрос е: каква стойност на статистиката на Дърбин-Уотсън трябва да се счита за достатъчно малка, за да се заключи, че има положителна автокорелация? Необходимо е да се съпостави стойността на D с критичните стойности ( dLи d U) в зависимост от броя на наблюденията ни ниво на значимост α (фиг. 17).

Ориз. 17. Критични стойности на статистиката на Durbin-Watson (фрагмент от таблица)

Така в проблема за обема на продажбите в магазин, доставящ стоки до вашия дом, има една независима променлива ( к= 1), 15 наблюдения ( н= 15) и ниво на значимост α = 0,05. Следователно, dL= 1,08 и дU= 1,36. Тъй като д = 0,883 < dL= 1,08, има положителна автокорелация между остатъците, методът на най-малките квадрати не може да бъде приложен.

Тестване на хипотези за наклона и коефициента на корелация

Горната регресия беше приложена единствено за прогнозиране. За определяне на регресионни коефициенти и прогнозиране на стойността на променлива Yза дадена стойност на променлива хизползван е методът на най-малките квадрати. Освен това взехме предвид стандартната грешка на оценката и коефициента на смесена корелация. Ако остатъчният анализ потвърди, че условията за приложимост на метода на най-малките квадрати не са нарушени и простият линеен регресионен модел е адекватен, въз основа на извадковите данни, може да се твърди, че има линейна връзка между променливите в популацията.

ПриложениеT -критерии за наклон.Чрез проверка дали наклонът на популацията β 1 е равен на нула, може да се определи дали има статистически значима връзка между променливите хи Y. Ако тази хипотеза бъде отхвърлена, може да се твърди, че между променливите хи Yима линейна връзка. Нулевата и алтернативната хипотеза са формулирани по следния начин: H 0: β 1 = 0 (няма линейна зависимост), H1: β 1 ≠ 0 (има линейна зависимост). По дефиниция T-статистиката е равна на разликата между наклона на извадката и наклона на хипотетичната популация, разделена на стандартната грешка на оценката на наклона:

(11) T = (b 1 β 1 ) / сб 1

където b 1 е наклонът на директната регресия въз основа на извадкови данни, β1 е хипотетичният наклон на директната генерална съвкупност, , и тестови статистики TТо има T- разпределение със n - 2степени на свобода.

Нека проверим дали има статистически значима връзка между размера на магазина и годишните продажби при α = 0,05. T-критериите се показват заедно с други параметри при използване Пакет за анализ(опция Регресия). Пълните резултати от пакета за анализ са показани на фиг. 4, фрагмент, свързан с t-статистиката - на фиг. осемнадесет.

Ориз. 18. Резултати от приложението T

Тъй като броят на магазините н= 14 (виж фиг. 3), критична стойност T-статистиката при ниво на значимост α = 0,05 може да се намери по формулата: t L=STUDENT.INV(0,025;12) = -2,1788, където 0,025 е половината от нивото на значимост и 12 = н – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Тъй като T-статистика = 10,64 > t U= 2.1788 (фиг. 19), нулева хипотеза H 0се отхвърля. От друга страна, Р- стойност за х\u003d 10,6411, изчислено по формулата \u003d 1-STUDENT.DIST (D3, 12, TRUE), е приблизително равно на нула, така че хипотезата H 0отново се отхвърля. Фактът че Р-стойността е почти нула, което означава, че ако няма реална линейна връзка между размера на магазина и годишните продажби, би било почти невъзможно да се намери чрез линейна регресия. Следователно съществува статистически значима линейна връзка между средните годишни продажби в магазина и размера на магазина.

Ориз. 19. Тестване на хипотезата за наклона на генералната съвкупност при ниво на значимост 0,05 и 12 степени на свобода

ПриложениеЕ -критерии за наклон.Алтернативен подход за тестване на хипотези за наклона на проста линейна регресия е използването Е- критерии. Спомнете си това Е-критерият се използва за тестване на връзката между две вариации (виж подробности). Когато се тества хипотезата за наклона, мярката за случайни грешки е дисперсията на грешката (сумата от квадратните грешки, разделена на броя на степените на свобода), така че Е-test използва съотношението на дисперсията, обяснено от регресията (т.е. стойностите ССРразделено на броя на независимите променливи к), към дисперсията на грешката ( MSE=SYх 2 ).

По дефиниция Е-статистиката е равна на средните квадратни отклонения, дължащи се на регресия (MSR), разделена на дисперсията на грешката (MSE): Е = MSR/ MSE, където MSR=ССР / к, MSE =SSE/(н– k – 1), kе броят на независимите променливи в регресионния модел. Тестова статистика ЕТо има Е- разпределение със ки н– к – 1степени на свобода.

За дадено ниво на значимост α решаващото правило се формулира по следния начин: ако F > FU, нулевата хипотеза се отхвърля; в противен случай не се отхвърля. Резултатите, представени под формата на обобщена таблица на дисперсионния анализ, са показани на фиг. двадесет.

Ориз. 20. Таблица с дисперсионен анализ за проверка на хипотезата за статистическата значимост на регресионния коефициент

по същия начин T-критерий Е-критериите се показват в таблицата при използване Пакет за анализ(опция Регресия). Пълни резултати от работата Пакет за анализпоказано на фиг. 4, фрагмент, свързан с Е-статистика - на фиг. 21.

Ориз. 21. Резултати от приложението Е- Критерии, получени с помощта на Excel Analysis ToolPack

F-статистиката е 113,23 и Р-стойност близка до нула (клетка ЗначениеЕ). Ако нивото на значимост α е 0,05, определете критичната стойност Е-от формулата се получават разпределения с една и 12 степени на свобода Ф У\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (фиг. 22). Тъй като Е = 113,23 > Ф У= 4,7472 и Р- стойност близка до 0< 0,05, нулевая гипотеза H 0се отклонява, т.е. Размерът на магазина е тясно свързан с неговия годишен обем на продажбите.

Ориз. 22. Тестване на хипотезата за наклона на генералната съвкупност при ниво на значимост 0,05, с една и 12 степени на свобода

Доверителен интервал, съдържащ наклон β 1 .За да проверите хипотезата за съществуването на линейна връзка между променливите, можете да изградите доверителен интервал, съдържащ наклона β 1 и да се уверите, че хипотетичната стойност β 1 = 0 принадлежи на този интервал. Центърът на доверителния интервал, съдържащ наклона β 1, е наклонът на извадката b 1 , а неговите граници са количествата b 1 ±t n –2 сб 1

Както е показано на фиг. осемнадесет, b 1 = +1,670, н = 14, сб 1 = 0,157. T 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Следователно, b 1 ±t n –2 сб 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, или + 1,328 ≤ β 1 ≤ +2,012. По този начин наклонът на съвкупността с вероятност от 0,95 е в диапазона от +1,328 до +2,012 (т.е. от $1,328,000 до $2,012,000). Тъй като тези стойности са по-големи от нула, има статистически значима линейна връзка между годишните продажби и площта на магазина. Ако доверителният интервал съдържаше нула, нямаше да има връзка между променливите. Освен това доверителният интервал означава, че на всеки 1000 кв. фута води до увеличение на средните продажби от $1,328,000 до $2,012,000.

ИзползванеT -критерии за коефициента на корелация.беше въведен коефициент на корелация r, което е мярка за връзката между две числови променливи. Може да се използва, за да се определи дали има статистически значима връзка между две променливи. Нека обозначим коефициента на корелация между популациите на двете променливи със символа ρ. Нулевата и алтернативната хипотеза са формулирани, както следва: H 0: ρ = 0 (няма корелация), H 1: ρ ≠ 0 (има корелация). Проверка за наличие на корелация:

където r = + , ако b 1 > 0, r = – , ако b 1 < 0. Тестовая статистика TТо има T- разпределение със n - 2степени на свобода.

В проблема на верига магазини Слънчогледи r2= 0,904 и b 1- +1.670 (виж фиг. 4). Тъй като b 1> 0, коефициентът на корелация между годишните продажби и размера на магазина е r= +√0,904 = +0,951. Нека тестваме нулевата хипотеза, че няма корелация между тези променливи, използвайки T- статистика:

При ниво на значимост α = 0,05, нулевата хипотеза трябва да бъде отхвърлена, тъй като T= 10,64 > 2,1788. Следователно може да се твърди, че има статистически значима връзка между годишните продажби и размера на магазина.

Когато обсъждаме изводи относно наклоните на населението, доверителните интервали и критериите за тестване на хипотези са взаимозаменяеми инструменти. Въпреки това, изчисляването на доверителния интервал, съдържащ коефициента на корелация, се оказва по-трудно, тъй като формата на извадковото разпределение на статистиката rзависи от истинския коефициент на корелация.

Оценка на математическото очакване и прогнозиране на индивидуалните стойности

Този раздел обсъжда методи за оценка на очаквания отговор Yи прогнози за индивидуални стойности Yза дадени стойности на променливата х.

Изграждане на доверителен интервал.В пример 2 (вижте горния раздел Метод на най-малките квадрати) регресионното уравнение направи възможно прогнозирането на стойността на променливата Y х. При проблема с избора на място за търговски обект средните годишни продажби в магазин с площ от 4000 кв. фута се равняваше на 7,644 милиона долара, но тази оценка на математическото очакване на общото население е точка. за да се оцени математическото очакване на генералната съвкупност, беше предложена концепцията за доверителен интервал. По подобен начин може да се въведе концепцията доверителен интервал за математическото очакване на отговораза дадена стойност на променлива х:

където , = b 0 + b 1 X i– променлива прогнозирана стойност Yпри х = X i, S YXе средната квадратична грешка, не размерът на извадката, хаз- дадената стойност на променливата х, µ Y|х = хаз– математическо очакване на променлива Yпри х = Х i,SSX=

Анализът на формула (13) показва, че ширината на доверителния интервал зависи от няколко фактора. При дадено ниво на значимост увеличаването на амплитудата на флуктуациите около регресионната линия, измерена с помощта на средната квадратична грешка, води до увеличаване на ширината на интервала. От друга страна, както се очаква, увеличаването на размера на извадката е придружено от стесняване на интервала. Освен това ширината на интервала се променя в зависимост от стойностите хаз. Ако стойността на променливата Yпредвидени за количества х, близо до средната стойност , доверителният интервал се оказва по-тесен, отколкото при прогнозиране на отговора за стойности, далеч от средната.

Да кажем, че когато избираме място за магазин, искаме да изградим 95% доверителен интервал за средните годишни продажби във всички магазини с площ от 4000 квадратни метра. крака:

Следователно средният годишен обем на продажбите във всички магазини с площ от ​4000 кв.м. фута, с 95% вероятност се намира в диапазона от 6,971 до 8,317 милиона долара.

Изчислете доверителния интервал за прогнозираната стойност.В допълнение към доверителния интервал за математическото очакване на отговора за дадена стойност на променливата х, често е необходимо да се знае доверителният интервал за прогнозираната стойност. Въпреки че формулата за изчисляване на такъв доверителен интервал е много подобна на формула (13), този интервал съдържа прогнозирана стойност, а не оценка на параметъра. Интервал за прогнозиран отговор Yх = Xiза конкретна стойност на променливата хазсе определя по формулата:

Да приемем, че когато избираме място за търговски обект, искаме да изградим 95% доверителен интервал за прогнозирания годишен обем на продажбите в магазин с площ от 4000 квадратни метра. крака:

Следователно прогнозираният годишен обем на продажбите за 4000 кв. фута, с 95% вероятност се намира в диапазона от 5,433 до 9,854 милиона долара.Както можете да видите, доверителният интервал за прогнозираната стойност на отговора е много по-широк от доверителния интервал за нейното математическо очакване. Това е така, защото променливостта при прогнозиране на индивидуалните стойности е много по-голяма, отколкото при оценката на очакваната стойност.

Клопки и етични проблеми, свързани с използването на регресия

Трудности, свързани с регресионния анализ:

  • Пренебрегване на условията за приложимост на метода на най-малките квадрати.
  • Погрешна оценка на условията за приложимост на метода на най-малките квадрати.
  • Грешен избор на алтернативни методи в нарушение на условията за приложимост на метода на най-малките квадрати.
  • Прилагане на регресионен анализ без задълбочени познания по предмета на изследване.
  • Екстраполация на регресията извън диапазона на обяснителната променлива.
  • Объркване между статистически и причинно-следствени връзки.

Широкото използване на електронни таблици и статистически софтуер елиминира изчислителните проблеми, които възпрепятстваха използването на регресионен анализ. Това обаче доведе до факта, че регресионният анализ започна да се използва от потребители, които нямат достатъчно квалификация и знания. Откъде потребителите знаят за алтернативни методи, ако много от тях изобщо нямат представа за условията за приложимост на метода на най-малките квадрати и не знаят как да проверят тяхното изпълнение?

Изследователят не трябва да се увлича от смилане на числа - изчисляване на отместване, наклон и смесен коефициент на корелация. Има нужда от по-задълбочени познания. Нека илюстрираме това с класически пример, взет от учебниците. Anscombe показа, че и четирите набора от данни, показани на фиг. 23 имат същите регресионни параметри (фиг. 24).

Ориз. 23. Четири изкуствени набора от данни

Ориз. 24. Регресионен анализ на четири изкуствени масива от данни; приключи с Пакет за анализ(щракнете върху изображението, за да увеличите изображението)

Така че, от гледна точка на регресионния анализ, всички тези набори от данни са напълно идентични. Ако анализът приключи дотук, ще загубим много полезна информация. Това се доказва от диаграмите на разсейване (фиг. 25) и остатъчните графики (фиг. 26), конструирани за тези набори от данни.

Ориз. 25. Диаграми на разсейване за четири набора от данни

Диаграмите на разсейване и остатъчните графики показват, че тези данни са различни една от друга. Единственото множество, разпределено по права линия, е множество A. Графиката на остатъците, изчислени от множество A, няма модел. Същото не може да се каже за набори B, C и D. Диаграмата на разсейване, начертана за набор B, показва ясно изразен квадратичен модел. Това заключение се потвърждава от графиката на остатъците, която има параболична форма. Диаграмата на разсейване и остатъчната диаграма показват, че наборът от данни B съдържа отклонение. В тази ситуация е необходимо да се изключи отклонението от набора от данни и да се повтори анализът. Техниката за откриване и елиминиране на отклонения от наблюденията се нарича анализ на влиянието. След елиминиране на отклонението, резултатът от повторната оценка на модела може да бъде напълно различен. Диаграма на разсейване, начертана от набор от данни D, илюстрира необичайна ситуация, в която емпиричният модел е силно зависим от един отговор ( X 8 = 19, Y 8 = 12,5). Такива регресионни модели трябва да се изчисляват особено внимателно. Така че диаграмите на разсейване и остатъците са основен инструмент за регресионен анализ и трябва да бъдат неразделна част от него. Без тях регресионният анализ не е надежден.

Ориз. 26. Графики на остатъците за четири набора от данни

Как да избегнем клопки в регресионния анализ:

  • Анализ на възможните връзки между променливите хи Yвинаги започвайте с точкова диаграма.
  • Преди да интерпретирате резултатите от регресионен анализ, проверете условията за неговата приложимост.
  • Начертайте остатъците спрямо независимата променлива. Това ще позволи да се определи как емпиричният модел съответства на резултатите от наблюдението и да се открие нарушение на постоянството на дисперсията.
  • Използвайте хистограми, графики на стъбла и листа, графики на кутии и графики на нормално разпределение, за да тествате предположението за нормално разпределение на грешките.
  • Ако условията за приложимост на метода на най-малките квадрати не са изпълнени, използвайте алтернативни методи (например модели на квадратична или множествена регресия).
  • Ако условията за приложимост на метода на най-малките квадрати са изпълнени, е необходимо да се провери хипотезата за статистическата значимост на регресионните коефициенти и да се изградят доверителни интервали, съдържащи математическото очакване и прогнозираната стойност на отговора.
  • Избягвайте да прогнозирате стойности на зависимата променлива извън диапазона на независимата променлива.
  • Имайте предвид, че статистическите зависимости не винаги са причинно-следствени. Не забравяйте, че корелацията между променливите не означава, че има причинно-следствена връзка между тях.

Резюме.Както е показано на блоковата диаграма (фиг. 27), бележката описва прост модел на линейна регресия, условията за неговата приложимост и начините за тестване на тези условия. Разглеждан T-критерий за проверка на статистическата значимост на наклона на регресията. Използван е регресионен модел за прогнозиране на стойностите на зависимата променлива. Разгледан е пример, свързан с избора на място за търговски обект, в който се изследва зависимостта на годишния обем на продажбите от площта на магазина. Получената информация ви позволява по-точно да изберете местоположение на магазина и да предвидите годишните му продажби. В следващите бележки ще продължи обсъждането на регресионния анализ, както и моделите на множествена регресия.

Ориз. 27. Блокова схема на нота

Използвани са материали от книгата Левин и др.Статистика за мениджъри. - М.: Уилямс, 2004. - стр. 792–872

Ако зависимата променлива е категорична, трябва да се приложи логистична регресия.

Регресионният анализ е един от най-популярните методи за статистическо изследване. Може да се използва за определяне на степента на влияние на независимите променливи върху зависимата променлива. Функционалността на Microsoft Excel разполага с инструменти, предназначени за извършване на този тип анализ. Нека да разгледаме какво представляват те и как да ги използваме.

Но за да използвате функцията, която ви позволява да извършвате регресионен анализ, първо трябва да активирате пакета за анализ. Само тогава инструментите, необходими за тази процедура, ще се появят на лентата на Excel.


Сега, когато отидем на раздела "Данни", на лентата в кутията с инструменти "Анализ"ще видим нов бутон - "Анализ на данни".

Видове регресионен анализ

Има няколко вида регресии:

  • параболичен;
  • мощност;
  • логаритмичен;
  • експоненциален;
  • демонстрация;
  • хиперболичен;
  • линейна регресия.

Ще говорим по-подробно за изпълнението на последния тип регресионен анализ в Excel по-късно.

Линейна регресия в Excel

По-долу, като пример, е дадена таблица, която показва средната дневна температура на въздуха на улицата и броя на клиентите на магазина за съответния работен ден. Нека разберем с помощта на регресионен анализ как точно метеорологичните условия под формата на температура на въздуха могат да повлияят на посещаемостта на търговски обект.

Общото уравнение на линейната регресия изглежда така: Y = a0 + a1x1 + ... + axk. В тази формула Yозначава променливата, чието влияние се опитваме да изследваме. В нашия случай това е броят на купувачите. Значение хса различните фактори, които влияят на променливата. Настроики аса регресионните коефициенти. Тоест те определят значимостта на даден фактор. Индекс кобозначава общия брой на същите тези фактори.


Анализ на резултатите от анализа

Резултатите от регресионния анализ се показват под формата на таблица на мястото, посочено в настройките.

Един от основните показатели е R-квадрат. Това показва качеството на модела. В нашия случай този коефициент е 0,705 или около 70,5%. Това е приемливо ниво на качество. Връзка по-малка от 0,5 е лоша.

Друг важен индикатор се намира в клетката в пресечната точка на линията "Y-пресечка"и колона "Коефициенти". Тук се посочва каква стойност ще има Y, а в нашия случай това е броят на купувачите, като всички останали фактори са равни на нула. В тази таблица тази стойност е 58,04.

Стойност в пресечната точка на графиката "Променлива X1"и "Коефициенти"показва нивото на зависимост на Y от X. В нашия случай това е нивото на зависимост на броя клиенти на магазина от температурата. Коефициент от 1,31 се счита за доста висок показател за влияние.

Както можете да видите, е доста лесно да създадете таблица за регресионен анализ с помощта на Microsoft Excel. Но само обучен човек може да работи с данните, получени на изхода, и да разбере тяхната същност.

Лекция 3

Регресионен анализ.

1) Числени характеристики на регресията

2) Линейна регресия

3) Нелинейна регресия

4) Множествена регресия

5) Използване на MS EXCEL за извършване на регресионен анализ

Средство за контрол и оценка – тестови задачи

1. Числени характеристики на регресията

Регресионният анализ е статистически метод за изследване на влиянието на една или повече независими променливи върху зависима променлива. Независимите променливи иначе се наричат ​​регресори или предиктори, а зависимите променливи се наричат ​​критерии. Терминологията на зависимите и независимите променливи отразява само математическата зависимост на променливите, а не връзката на причината и следствието.

Цели на регресионния анализ

  • Определяне на степента на детерминизъм на вариацията на критериалната (зависима) променлива чрез предиктори (независими променливи).
  • Прогнозиране на стойността на зависимата променлива с помощта на независимата променлива(и).
  • Определяне на приноса на отделните независими променливи към вариацията на зависимата.

Регресионният анализ не може да се използва, за да се определи дали има връзка между променливите, тъй като наличието на такава връзка е предпоставка за прилагане на анализа.

За да извършите регресионен анализ, първо трябва да се запознаете с основните понятия на статистиката и теорията на вероятностите.

Основни числени характеристики на дискретни и непрекъснати случайни величини: математическо очакване, дисперсия и стандартно отклонение.

Случайните променливи се делят на два вида:

  • Дискретни, които могат да приемат само конкретни, предварително определени стойности (например стойностите на числата в горната част на хвърлен зар или порядъчни стойности на текущия месец);
  • · непрекъснати (най-често - стойностите на някои физически величини: тегла, разстояния, температури и др.), Които според законите на природата могат да приемат всякакви стойности, поне в определен интервал.

Законът за разпределение на случайна променлива е съответствието между възможните стойности на дискретна случайна променлива и нейните вероятности, обикновено записани в таблица:

Статистическата дефиниция на вероятността се изразява чрез относителната честота на случайно събитие, т.е. намира се като съотношение на броя на случайните променливи към общия брой на случайните променливи.

Математическо очакване на дискретна случайна променливахсе нарича сбор от продуктите на стойностите на количеството хвърху вероятността на тези стойности. Математическото очакване се означава с или М(х) .

н

= М(х) = х 1 стр 1 + х 2 стр 2 +… + x n p n = С x i пи

аз=1

Дисперсията на случайна променлива по отношение на нейното математическо очакване се определя с помощта на числена характеристика, наречена дисперсия. Просто казано, дисперсията е разпространението на случайна променлива около средната стойност. За да разберете същността на дисперсията, помислете за пример. Средната заплата в страната е около 25 хиляди рубли. Откъде идва това число? Най-вероятно всички заплати се сумират и разделят на броя на служителите. В този случай има много голяма дисперсия (минималната заплата е около 4 хиляди рубли, а максималната е около 100 хиляди рубли). Ако всички имаха една и съща заплата, тогава дисперсията щеше да е нула и нямаше да има спред.

Дисперсия на дискретна случайна променливахсе нарича математическо очакване на квадрата на разликата на случайна променлива и нейното математическо очакване:

D = M [ ((X - M (X)) 2 ]

Използвайки дефиницията на математическото очакване за изчисляване на дисперсията, получаваме формулата:

D \u003d S (x i - M (X)) 2 p i

Дисперсията има размерността на квадрата на случайна променлива. В случаите, когато е необходимо да има числена характеристика на дисперсията на възможните стойности в същото измерение като самата случайна променлива, се използва стандартното отклонение.

Стандартно отклонениеслучайна променлива се нарича корен квадратен от нейната дисперсия.

Средното квадратично отклонение е мярка за дисперсията на стойностите на случайна променлива около нейното математическо очакване.

Пример.

Законът за разпределение на случайна променлива X е даден от следната таблица:

Намерете неговото математическо очакване, дисперсия и стандартно отклонение .

Използваме горните формули:

M (X) \u003d 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 \u003d 3

D \u003d (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 \u003d 1,6

Пример.

В паричната лотария се играят 1 печалба от 1000 рубли, 10 печалби от 100 рубли и 100 печалби от 1 рубла всяка с общ брой билети 10 000. Направете закон за разпределение за случайна печалба X за собственика на един лотарен билет и определяне на математическото очакване, дисперсията и стандартното отклонение на случайна променлива.

X 1 \u003d 1000, X 2 = 100, X 3 \u003d 1, X 4 = 0,

P 1 = 1/10000 = 0,0001, P 2 = 10/10000 = 0,001, P 3 = 100/10000 = 0,01, P 4 = 1 - (P 1 + P 2 + P 3) = 0,9889.

Поставяме резултатите в таблица:

Математическо очакване - сумата от сдвоените произведения на стойността на случайна променлива по тяхната вероятност. За този проблем е препоръчително да го изчислите по формулата

1000 0,0001 + 100 0,001 + 1 0,01 + 0 0,9889 = 0,21 рубли.

Имаме наистина "справедлива" цена на билета.

D \u003d S (x i - M (X)) 2 p i \u003d (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Функция на разпределение на непрекъснати случайни променливи

Стойността, която в резултат на теста ще приеме една възможна стойност (не е известно предварително коя), се нарича случайна променлива. Както бе споменато по-горе, случайните променливи са дискретни (прекъснати) и непрекъснати.

Дискретна променлива е случайна променлива, която приема отделни възможни стойности с определени вероятности, които могат да бъдат номерирани.

Непрекъснатата променлива е случайна променлива, която може да приема всички стойности от някакъв краен или безкраен интервал.

До този момент се ограничихме само до една „разновидност“ на случайни променливи - дискретни, т.е. приемане на крайни стойности.

Но теорията и практиката на статистиката изискват използването на концепцията за непрекъсната случайна променлива - позволяваща всякакви числени стойности от всеки интервал.

Законът за разпределение на непрекъсната случайна променлива се определя удобно с помощта на така наречената функция на плътност на вероятността. f(x). Вероятност P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

П (а< X < b) = ∫ f(х) dx

Графиката на функцията f (x) се нарича крива на разпределение. Геометрично, вероятността случайна променлива да попадне в интервала (a; b) е равна на площта на съответния криволинеен трапец, ограничен от кривата на разпределение, оста Ox и правите линии x = a, x = b .

P(a£X

Ако крайно или изброимо множество се извади от сложно събитие, вероятността за ново събитие ще остане непроменена.

Функция f(x) - числена скаларна функция на реален аргумент x се нарича плътност на вероятността и съществува в точка x, ако в тази точка има ограничение:

Свойства на плътността на вероятността:

  1. Плътността на вероятността е неотрицателна функция, т.е. f(x) ≥ 0

(ако всички стойности на случайната променлива X са в интервала (a;b), тогава последната

равенството може да се запише като ∫ f (x) dx = 1).

Помислете сега за функцията F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

непрекъсната случайна променлива X, тогава F (x) = ∫ f(x) dx = 1).

От последното равенство следва, че f (x) = F" (x)

Понякога функцията f(x) се нарича диференциална функция на разпределение на вероятностите, а функцията F(x) се нарича функция на разпределение на кумулативната вероятност.

Отбелязваме най-важните свойства на функцията за разпределение на вероятностите:

  1. F(x) е ненамаляваща функция.
  2. F(-∞)=0.
  3. F (+∞) = 1.

Концепцията за функция на разпределение е централна за теорията на вероятностите. Използвайки тази концепция, може да се даде друга дефиниция на непрекъсната случайна променлива. Случайна променлива се нарича непрекъсната, ако нейната интегрална функция на разпределение F(x) е непрекъсната.

Числени характеристики на непрекъснати случайни величини

Математическото очакване, дисперсията и други параметри на всякакви случайни променливи почти винаги се изчисляват с помощта на формули, които следват от закона за разпределение.

За непрекъсната случайна променлива математическото очакване се изчислява по формулата:

M(X) = ∫ x f(х) dx

дисперсия:

D(X) = ∫ ( х- M (X)) 2 f(х) dx или D(X) = ∫ х 2 е(х) dx - (M (X)) 2

2. Линейна регресия

Нека компонентите X и Y на двумерна случайна променлива (X, Y) са зависими. Ще приемем, че единият от тях може да бъде приблизително представен като линейна функция на другия, например

Y ≈ g(X) = α + βX и определяне на параметрите α и β чрез метода на най-малките квадрати.

Определение. Извиква се функцията g(X) = α + βX най-добро приближение Y в смисъла на метода на най-малките квадрати, ако математическото очакване M(Y - g(X)) 2 приеме най-малката възможна стойност; се извиква функцията g(X). средна квадратична регресия Y към X.

ТеоремаЛинейната средноквадратична регресия на Y върху X е:

където е коефициентът на корелация X и Y.

Коефициенти на уравнението.

Може да се провери, че за тези стойности функцията F(α, β)

Е(α, β ) = М(Y - α - βX)² има минимум, което доказва твърдението на теоремата.

Определение. Коефициентът се нарича регресионен коефициент Y върху X, а правата линия - - директна средноквадратична регресия на Y върху X.

Замествайки координатите на стационарната точка в равенството, можем да намерим минималната стойност на функцията F(α, β), равна на Тази стойност се нарича остатъчна дисперсия Y спрямо X и характеризира количеството грешка, разрешена при замяна на Y с

g(X) = α + βX. При остатъчната дисперсия е 0, тоест равенството не е приблизително, а точно. Следователно, когато Y и X са свързани с линейна функционална зависимост. По същия начин можете да получите права линия на средноквадратична регресия на X върху Y:

и остатъчната дисперсия на X по отношение на Y. За двете директни регресии съвпадат. Сравнявайки регресионните уравнения Y върху X и X върху Y и решавайки системата от уравнения, можете да намерите пресечната точка на регресионните линии - точка с координати (t x, t y), т.нар. центърът на съвместното разпределение на стойностите X и Y.

Ще разгледаме алгоритъма за съставяне на регресионни уравнения от учебника на V. E. Gmurman „Теория на вероятностите и математическа статистика“ стр. 256.

1) Съставете изчислителна таблица, в която ще бъдат записани номерата на примерните елементи, вариантите на примерите, техните квадрати и продукт.

2) Изчислете сумата във всички колони с изключение на числото.

3) Изчислете средните стойности за всяко количество, дисперсия и стандартни отклонения.

5) Тествайте хипотезата за съществуването на връзка между X и Y.

6) Съставете уравненията на двете регресионни линии и начертайте графиките на тези уравнения.

Наклонът на правата регресия Y върху X е регресионният коефициент на извадката

Коефициент b=

Получаваме желаното уравнение на регресионната линия Y върху X:

Y \u003d 0,202 X + 1,024

По същия начин регресионното уравнение X върху Y:

Наклонът на правата регресия Y върху X е примерният регресионен коефициент pxy:

Коефициент b=

X \u003d 4,119 Y - 3,714

3. Нелинейна регресия

Ако съществуват нелинейни зависимости между икономическите явления, тогава те се изразяват с помощта на съответните нелинейни функции.

Има два класа нелинейни регресии:

1. Регресии, които са нелинейни по отношение на обяснителните променливи, включени в анализа, но линейни по отношение на оценените параметри, например:

Полиноми от различни степени

Равностранна хипербола - ;

Полулогаритмична функция - .

2. Регресии, които са нелинейни по отношение на оценените параметри, например:

Мощност - ;

Демонстративен -;

Експоненциален - .

Нелинейните регресии на включените променливи се редуцират до линейна форма чрез проста промяна на променливите и по-нататъшното оценяване на параметрите се извършва с помощта на метода на най-малките квадрати. Нека разгледаме някои функции.

Параболата от втора степен се редуцира до линейна форма, като се използва замяната: . В резултат на това стигаме до двуфакторно уравнение, оценката на чиито параметри с помощта на метода на най-малките квадрати води до системата от уравнения:

Парабола от втора степен обикновено се използва в случаите, когато за определен интервал от стойности на факторите се променя естеството на връзката на разглежданите характеристики: пряка връзка се променя в обратна или обратна в пряка.

Равностранна хипербола може да се използва за характеризиране на връзката между специфичните разходи за суровини, материали, гориво и обема на продукцията, времето на обръщение на стоките и стойността на оборота. Негов класически пример е кривата на Филипс, която характеризира нелинейната връзка между нивото на безработица хи процентно увеличение на заплатите г.

Хиперболата се свежда до линейно уравнение чрез проста замяна: . Можете също да използвате метода на най-малките квадрати, за да изградите система от линейни уравнения.

По подобен начин зависимостите се привеждат в линеен вид: , и др.

Равностранна хипербола и полулогаритмична крива се използват за описание на кривата на Engel (математическо описание на връзката между дела на разходите за дълготрайни стоки и общите разходи (или доходи)). Уравненията, в които са включени, се използват при изследванията на производителността, трудоемкостта на селскостопанското производство.

4. Множествена регресия

Множествена регресия - уравнение на връзка с множество независими променливи:

където е зависимата променлива (резултатен знак);

Независими променливи (фактори).

За изграждане на уравнение на множествена регресия най-често се използват следните функции:

линеен -

мощност -

изложител -

хипербола - .

Можете да използвате други функции, които могат да бъдат намалени до линейна форма.

За оценка на параметрите на уравнението на множествената регресия се използва методът на най-малките квадрати (LSM). За линейни уравнения и нелинейни уравнения, редуцируеми до линейни, е изградена следната система от нормални уравнения, чието решение позволява да се получат оценки на параметрите на регресията:

За решаването му може да се приложи методът на детерминантите:

където е детерминантата на системата;

Частни детерминанти; които се получават чрез замяна на съответната колона от матрицата на детерминантата на системата с данните от лявата страна на системата.

Друг тип уравнение на множествена регресия е уравнението на стандартизираната скала на регресия, LSM е приложимо към уравнението на множествената регресия в стандартизирана скала.

5. УпотребаГОСПОЖИЦАEXCELза извършване на регресионен анализ

Регресионният анализ установява формата на връзката между случайната променлива Y (зависима) и стойностите на една или повече променливи (независими), като стойностите на последните се считат за точно дадени. Такава зависимост обикновено се определя от някакъв математически модел (регресионно уравнение), съдържащ няколко неизвестни параметъра. В хода на регресионния анализ въз основа на извадкови данни се намират оценки на тези параметри, определят се статистически грешки на оценките или границите на доверителните интервали и се проверява съответствието (адекватността) на приетия математически модел с експериментални данни.

При линейния регресионен анализ връзката между случайните променливи се приема за линейна. В най-простия случай, в сдвоен линеен регресионен модел, има две променливи X и Y. И се изисква за n двойки наблюдения (X1, Y1), (X2, Y2), ..., (Xn, Yn) за изграждане (избиране) на права линия, наречена линия на регресия, която "най-добре" приближава наблюдаваните стойности. Уравнението на тази права y=ax+b е регресионно уравнение. С помощта на регресионно уравнение можете да предвидите очакваната стойност на зависимата променлива y, съответстваща на дадена стойност на независимата променлива x. В случай, че се разглежда зависимостта между една зависима променлива Y и няколко независими променливи X1, X2, ..., Xm, се говори за множествена линейна регресия.

В този случай регресионното уравнение има формата

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m,

където a0, a1, a2, …, am са регресионните коефициенти, които трябва да бъдат определени.

Коефициентите на регресионното уравнение се определят с помощта на метода на най-малките квадрати, като се постига минималната възможна сума на квадратите на разликите между реалните стойности на променливата Y и тези, изчислени с помощта на регресионното уравнение. Така, например, уравнение на линейна регресия може да бъде конструирано дори когато няма линейна корелация.

Мярка за ефективността на регресионния модел е коефициентът на детерминация R2 (R-квадрат). Коефициентът на определяне може да приема стойности между 0 и 1, определя с каква степен на точност полученото регресионно уравнение описва (приближава) оригиналните данни. Значимостта на регресионния модел също се изследва с помощта на F-критерия (Fisher) и надеждността на разликата между коефициентите a0, a1, a2, ..., am от нула се проверява с помощта на t-теста на Student.

В Excel експерименталните данни се апроксимират с линейно уравнение до 16-ти ред:

y = a0+a1x1+a2x2+...+a16x16

За получаване на коефициенти на линейна регресия може да се използва процедурата "Регресия" от пакета за анализ. Освен това функцията LINEST предоставя пълна информация за уравнението на линейната регресия. Освен това функциите SLOPE и INTERCEPT могат да се използват за получаване на параметрите на регресионното уравнение, а функциите TREND и FORECAST могат да се използват за получаване на прогнозираните стойности на Y в необходимите точки (за регресия по двойки).

Нека разгледаме подробно приложението на функцията LINEST (известен_y, [известен_x], [константа], [статистика]): известен_y - диапазонът от известни стойности на зависимия параметър Y. При регресионен анализ по двойки може да има всякаква форма; в множествено число трябва да е или ред, или колона; unknown_x е диапазонът от известни стойности на един или повече независими параметри. Трябва да има същата форма като диапазона Y (съответно за множество параметри, множество колони или редове); константа - булев аргумент. Ако въз основа на практическото значение на задачата за регресионен анализ е необходимо линията на регресия да минава през началото, т.е. свободният коефициент да е равен на 0, стойността на този аргумент трябва да бъде зададена равна на 0 (или „ невярно”). Ако стойността е зададена на 1 (или "true") или пропусната, тогава безплатният коефициент се изчислява по обичайния начин; статистиката е булев аргумент. Ако стойността е зададена на 1 (или „истина“), тогава се връща допълнителна регресионна статистика (вижте таблицата), използвана за оценка на ефективността и значимостта на модела. В общия случай, за регресия по двойки y=ax+b, резултатът от прилагането на функцията LINEST изглежда така:

Таблица. Изходен обхват на LINEST за регресионен анализ по двойки

В случай на множествен регресионен анализ за уравнението y=a0+a1x1+a2x2+…+amxm, коефициентите am,…,a1,a0 се показват на първия ред, а стандартните грешки за тези коефициенти се показват на втория ред . Редове 3-5, с изключение на първите две колони, попълнени с регресионна статистика, ще дадат #N/A.

Функцията LINEST трябва да бъде въведена като формула за масив, като първо изберете масив с желания размер за резултата (m+1 колони и 5 реда, ако се изискват регресионни статистики) и завършете въвеждането на формула чрез натискане на CTRL+SHIFT+ENTER.

Резултатът за нашия пример:

Освен това програмата има вградена функция - Анализ на данни в раздела Данни.

Може да се използва и за извършване на регресионен анализ:

На слайда - резултатът от регресионния анализ, извършен с помощта на Data Analysis.

РЕЗУЛТАТИ

Регресионна статистика

Множество R

R-квадрат

Нормализиран R-квадрат

стандартна грешка

Наблюдения

Дисперсионен анализ

Значение F

Регресия

Коефициенти

стандартна грешка

t-статистика

P-стойност

дъно 95%

Топ 95%

По-ниски 95,0%

Топ 95,0%

Y-пресечка

Променлива X 1

Регресионните уравнения, които разгледахме по-рано, също са изградени в MS Excel. За да ги изпълните, първо се изгражда точкова диаграма, след което чрез контекстното меню изберете - Добавяне на тренд линия. В новия прозорец поставете отметки в квадратчетата - Покажи уравнението на диаграмата и поставете стойността на надеждността на приближението (R^2) върху диаграмата.

Литература:

  1. Теория на вероятностите и математическа статистика. Гмурман В. Е. Учебник за университети. - Ед. 10-ти, ср. - М.: Висше. училище, 2010. - 479с.
  2. Висша математика в упражнения и задачи. Учебник за университети / Данко П. Е., Попов А. Г., Кожевникова Т. Я., Данко С. П. В 2 часа - Изд. 6-ти, ср. - М .: Издателска къща Oniks LLC: Издателска къща Mir and Education LLC, 2007. - 416 с.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - малко информация за регресионния анализ