Biograafiad Omadused Analüüs

Lineaarne regressioonanalüüs. Matemaatilise statistika meetodid

TULEMUSED

Tabel 8.3a. Regressioonistatistika
Regressioonistatistika
Mitu R 0,998364
R-ruut 0,99673
Normaliseeritud R-ruut 0,996321
standardviga 0,42405
Tähelepanekud 10

Vaatame esmalt tabelis 8.3a toodud arvutuste ülemist osa, regressioonistatistikat.

Väärtus R-ruut, mida nimetatakse ka kindluse mõõduks, iseloomustab saadud regressioonisirge kvaliteeti. Seda kvaliteeti väljendab algandmete ja regressioonimudeli (arvutatud andmete) vastavuse määr. Kindluse mõõt on alati intervalli sees.

Enamasti jääb R-ruudu väärtus nende väärtuste vahele, mida nimetatakse äärmusteks, st. nulli ja ühe vahel.

Kui R-ruudu väärtus on ühele lähedane, tähendab see, et konstrueeritud mudel selgitab peaaegu kogu vastavate muutujate varieeruvuse. Ja vastupidi, nullilähedane R-ruudu väärtus tähendab konstrueeritud mudeli halba kvaliteeti.

Meie näites on kindluse mõõduks 0,99673, mis näitab regressioonijoone väga head sobivust algandmetega.

Mitu R- mitmikkorrelatsiooni koefitsient R - väljendab sõltumatute muutujate (X) ja sõltuva muutuja (Y) sõltuvusastet.

Mitu R võrdub määramiskoefitsiendi ruutjuurega, see väärtus võtab väärtusi vahemikus nullist üheni.

Lihtsa lineaarse regressioonianalüüsi korral on mitmekordne R võrdne Pearsoni korrelatsioonikoefitsiendiga. Tõepoolest, meie puhul on mitmekordne R võrdne eelmise näite Pearsoni korrelatsioonikoefitsiendiga (0, 998364).

Tabel 8.3b. Regressioonikoefitsiendid
Koefitsiendid standardviga t-statistika
Y-ristmik 2,694545455 0,33176878 8,121757129
Muutuja X 1 2,305454545 0,04668634 49,38177965
* Esitatakse arvutuste kärbitud versioon

Vaatleme nüüd tabelis 8.3b esitatud arvutuste keskmist osa. Siin on antud regressioonikordaja b (2,305454545) ja nihe piki y-telge, s.o. konstant a (2,694545455).

Arvutuste põhjal saame regressioonivõrrandi kirjutada järgmiselt:

Y= x*2,305454545+2,694545455

Muutujate vahelise seose suund määratakse märkide (negatiivse või positiivse) alusel. regressioonikoefitsiendid(koefitsient b).

Kui märk kl regressioonikoefitsient- positiivne, sõltuva muutuja suhe sõltumatuga on positiivne. Meie puhul on regressioonikordaja märk positiivne, järelikult on ka seos positiivne.

Kui märk kl regressioonikoefitsient- negatiivne, sõltuva muutuja ja sõltumatu muutuja vaheline seos on negatiivne (pöördvõrdeline).

Tabelis 8.3c. esitatakse jääkide väljundi tulemused. Nende tulemuste aruandes kuvamiseks on vaja "Regressiooni" tööriista käivitamisel aktiveerida märkeruut "Jääkud".

JÄÄB VÄLJAVÕTE

Tabel 8.3c. Jäänused
Vaatlus Ennustas Y Jäänused Standardsaldod
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Aruande seda osa kasutades näeme iga punkti kõrvalekaldeid konstrueeritud regressioonijoonest. Suurim absoluutväärtus

3. loeng

Regressioonanalüüs.

1) Regressiooni numbrilised karakteristikud

2) Lineaarne regressioon

3) Mittelineaarne regressioon

4) Mitmekordne regressioon

5) MS EXCELi kasutamine regressioonanalüüsi tegemiseks

Kontrolli- ja hindamisvahend – testülesanded

1. Regressiooni numbrilised karakteristikud

Regressioonanalüüs on statistiline meetod ühe või mitme sõltumatu muutuja mõju uurimiseks sõltuvale muutujale. Sõltumatuid muutujaid nimetatakse muidu regressoriteks või ennustajateks ja sõltuvaid muutujaid kriteeriumiteks. Sõltuvate ja sõltumatute muutujate terminoloogia peegeldab ainult muutujate matemaatilist sõltuvust, mitte põhjuse ja tagajärje seost.

Regressioonanalüüsi eesmärgid

  • Kriteeriumi (sõltuva) muutuja variatsiooni determinismi astme määramine ennustajate (sõltumatute muutujate) abil.
  • Sõltuva muutuja väärtuse ennustamine sõltumatu(te) muutuja(te) abil.
  • Üksikute sõltumatute muutujate panuse määramine sõltuva muutuja muutumisse.

Regressioonanalüüsi abil ei saa kindlaks teha, kas muutujate vahel on seos, kuna sellise seose olemasolu on analüüsi rakendamise eelduseks.

Regressioonanalüüsi läbiviimiseks peate esmalt tutvuma statistika ja tõenäosusteooria põhimõistetega.

Diskreetsete ja pidevate juhuslike suuruste põhilised numbrilised karakteristikud: matemaatiline ootus, dispersioon ja standardhälve.

Juhuslikud muutujad jagunevad kahte tüüpi:

  • Diskreetne, mis võib võtta ainult konkreetseid etteantud väärtusi (näiteks visatud täringu ülaosas olevate numbrite väärtused või jooksva kuu järguväärtused);
  • · pidev (kõige sagedamini - mõne füüsikalise suuruse väärtused: kaal, kaugus, temperatuur jne), mis loodusseaduste kohaselt võib võtta mis tahes väärtusi, vähemalt teatud intervalliga.

Juhusliku suuruse jaotusseadus on vastavus diskreetse juhusliku suuruse võimalike väärtuste ja selle tõenäosuste vahel, mis tavaliselt kirjutatakse tabelisse:

Tõenäosuse statistiline definitsioon väljendub juhusliku sündmuse suhtelise sageduse kaudu, st leitakse juhuslike suuruste arvu ja juhuslike suuruste koguarvu suhtena.

Diskreetse juhusliku suuruse matemaatiline ootusX nimetatakse koguse väärtuste korrutiste summaks X nende väärtuste tõenäosuse kohta. Matemaatiline ootus on tähistatud või M(X) .

n

= M(X) = x 1 lk 1 + x 2 lk 2 +… + x n p n = S x i pi

i=1

Juhusliku suuruse dispersioon tema matemaatilise ootuse suhtes määratakse arvulise tunnuse abil, mida nimetatakse dispersiooniks. Lihtsamalt öeldes on dispersioon juhusliku muutuja levik keskmise ümber. Dispersiooni olemuse mõistmiseks kaaluge näidet. Riigi keskmine palk on umbes 25 tuhat rubla. Kust see number pärit on? Suure tõenäosusega kõik palgad liidetakse ja jagatakse töötajate arvuga. Sel juhul on hajumine väga suur (minimaalne palk on umbes 4 tuhat rubla ja maksimaalne on umbes 100 tuhat rubla). Kui kõigil oleks sama palk, oleks dispersioon null ja vahet ei oleks.

Diskreetse juhusliku suuruse dispersioonX nimetatakse juhusliku suuruse erinevuse ruudu matemaatiliseks ootuseks ja selle matemaatiliseks ootuseks:

D = M [ ((X - M (X)) 2]

Kasutades dispersiooni arvutamiseks matemaatilise ootuse määratlust, saame valemi:

D \u003d S (x i - M (X)) 2 p i

Dispersioonil on juhusliku suuruse ruudu mõõde. Juhtudel, kui on vaja võimalike väärtuste hajuvuse arvulist karakteristikku juhusliku suuruse endaga samas mõõtmes, kasutatakse standardhälvet.

Standardhälve juhuslikku muutujat nimetatakse selle dispersiooni ruutjuureks.

Keskmine ruuthälve on juhusliku suuruse väärtuste hajumise mõõt selle matemaatilise ootuse ümber.

Näide.

Juhusliku suuruse X jaotusseadus on toodud järgmises tabelis:

Leidke selle matemaatiline ootus, dispersioon ja standardhälve .

Kasutame ülaltoodud valemeid:

M (X) = 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 \u003d 3

D \u003d (1-3) 2 0,1 + (2-3) 2 0,4 + (4-3) 2 0,4 + (5-3) 2 0,1 \u003d 1,6

Näide.

Rahalises loteriis mängitakse 1 võit 1000 rubla, 10 võitu 100 rubla ja 100 võitu 1 rubla piletite koguarvuga 10 000. Tee ühe loteriipileti omanikule juhusliku võidu X jaotusseadus. ja määrata juhusliku suuruse matemaatiline ootus, dispersioon ja standardhälve.

X 1 \u003d 1000, X 2 = 100, X 3 = 1, X 4 = 0,

P 1 = 1/10000 = 0,0001, P 2 = 10/10000 = 0,001, P 3 = 100/10000 = 0,01, P 4 = 1 - (P 1 + P 2 + P 3) = 0,9889.

Paneme tulemused tabelisse:

Matemaatiline ootus - juhusliku suuruse väärtuse paariskorrutiste summa nende tõenäosuse järgi. Selle probleemi jaoks on soovitatav see arvutada valemiga

1000 0,0001 + 100 0,001 + 1 0,01 + 0 0,9889 = 0,21 rubla.

Saime päris "õiglase" piletihinna.

D \u003d S (x i - M (X)) 2 p i \u003d (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Pidevate juhuslike suuruste jaotusfunktsioon

Väärtust, mis testi tulemusel saab ühe võimaliku väärtuse (ei ole teada, millise), nimetatakse juhuslikuks muutujaks. Nagu eespool mainitud, on juhuslikud suurused diskreetsed (katkestavad) ja pidevad.

Diskreetne muutuja on juhuslik muutuja, mis võtab teatud tõenäosustega eraldi võimalikud väärtused, mida saab nummerdada.

Pidev muutuja on juhuslik muutuja, mis võib võtta kõik väärtused mõnest lõplikust või lõpmatust intervallist.

Siiani oleme piirdunud ainult ühe juhuslike muutujatega – diskreetsete, s.o. lõplike väärtuste võtmine.

Kuid statistika teooria ja praktika nõuavad pideva juhusliku muutuja kontseptsiooni kasutamist - lubades mis tahes arvväärtusi mis tahes intervallist.

Pideva juhusliku suuruse jaotusseadust saab mugavalt täpsustada nn tõenäosustiheduse funktsiooni abil. f(x). Tõenäosus P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P (a< X < b) = ∫ f(x) dx

Funktsiooni f (x) graafikut nimetatakse jaotuskõveraks. Geomeetriliselt on tõenäosus, et juhuslik suurus langeb intervalli (a; b) võrdne vastava kõverjoonelise trapetsi pindalaga, mida piiravad jaotuskõver, Ox telg ja sirged x = a, x = b .

P(a£X

Kui keerulisest sündmusest lahutada lõplik või loendatav hulk, jääb uue sündmuse tõenäosus muutumatuks.

Funktsioon f(x) – reaalse argumendi x arvulist skalaarfunktsiooni nimetatakse tõenäosustiheduseks ja see eksisteerib punktis x, kui selles punktis on piir:

Tõenäosuse tiheduse omadused:

  1. Tõenäosustihedus on mittenegatiivne funktsioon, st f(x) ≥ 0

(kui kõik juhusliku suuruse X väärtused on vahemikus (a;b), siis viimane

võrdsuse saab kirjutada kui ∫ f (x) dx = 1).

Vaatleme nüüd funktsiooni F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

pidev juhuslik suurus X, siis F (x) = ∫ f(x) dx = 1).

Viimasest võrratusest järeldub, et f (x) = F" (x)

Mõnikord nimetatakse funktsiooni f(x) diferentsiaaljaotuse funktsiooniks ja funktsiooni F(x) kumulatiivseks tõenäosusjaotuse funktsiooniks.

Märgime tõenäosusjaotuse funktsiooni kõige olulisemad omadused:

  1. F(x) on mittekahanev funktsioon.
  2. F(-∞)=0.
  3. F (+∞) = 1.

Jaotusfunktsiooni mõiste on tõenäosusteoorias kesksel kohal. Seda mõistet kasutades saab anda pideva juhusliku suuruse teise definitsiooni. Juhuslikku suurust nimetatakse pidevaks, kui selle integraaljaotusfunktsioon F(x) on pidev.

Pidevate juhuslike suuruste arvulised karakteristikud

Mis tahes juhuslike muutujate matemaatilised ootused, dispersioon ja muud parameetrid arvutatakse peaaegu alati jaotusseadusest tulenevate valemite abil.

Pideva juhusliku muutuja matemaatiline ootus arvutatakse järgmise valemiga:

M(X) = ∫ x f(x) dx

Dispersioon:

D(X) = ∫ ( x- M (X)) 2 f(x) dx või D(X) = ∫ x 2 f(x) dx - (M (X)) 2

2. Lineaarne regressioon

Olgu kahemõõtmelise juhusliku suuruse (X, Y) komponendid X ja Y sõltuvad. Eeldame, et ühte neist saab ligikaudselt esitada näiteks teise lineaarse funktsioonina

Y ≈ g(X) = α + βX ning määrake parameetrid α ja β vähimruutude meetodil.

Definitsioon. Kutsutakse funktsiooni g(X) = α + βX parim lähendus Y vähimruutude meetodi tähenduses, kui matemaatiline ootus M(Y - g(X)) 2 võtab väikseima võimaliku väärtuse; kutsutakse funktsioon g(X). keskmine ruutregressioon Y kuni X.

Teoreem Y lineaarne keskmine ruutregressioon X-l on:

kus on korrelatsioonikordaja X ja Y.

Võrrandi koefitsiendid.

Saab kontrollida, et nende väärtuste puhul on funktsioon F(α, β)

F(α, β ) = M(Y - α - βX)² omab miinimumi, mis tõestab teoreemi väidet.

Definitsioon. Koefitsienti nimetatakse regressioonikordaja Y X-l, ja sirgjoon - - Y otsene ruutkeskmine regressioon X-l.

Asendades statsionaarse punkti koordinaadid võrdusse, leiame funktsiooni F(α, β) minimaalse väärtuse, mis on võrdne See väärtus on nn. jääkdispersioon Y X-i suhtes ja iseloomustab lubatud vea suurust Y asendamisel

g(X) = α + βX. Kell , on jääkvariatsioon 0, see tähendab, et võrdsus ei ole ligikaudne, vaid täpne. Seega, kui Y ja X on ühendatud lineaarse funktsionaalse sõltuvusega. Samamoodi võite saada sirgjoone X-i ruutkeskmise regressiooni kohta Y-l:

ja X jääkvariatsioon Y suhtes. Mõlema otsese regressiooni korral langevad kokku. Võrreldes regressioonivõrrandeid Y-l ja X-l ning lahendades võrrandisüsteemi, saate leida regressioonisirgete lõikepunkti - koordinaatidega punkti (t x, t y), nn. X ja Y väärtuste ühise jaotuse keskpunkt.

Vaatleme regressioonivõrrandite koostamise algoritmi V. E. Gmurmani õpikust “Tõenäosusteooria ja matemaatiline statistika” lk 256.

1) Koostage arvutustabel, kuhu märgitakse näidiselementide arvud, näidisvariandid, nende ruudud ja korrutis.

2) Arvutage kõigi veergude summa, välja arvatud arv.

3) Arvutage iga koguse, dispersiooni ja standardhälbete keskmised väärtused.

5) Kontrollige hüpoteesi X ja Y vahelise seose olemasolu kohta.

6) Koostage mõlema regressioonisirge võrrandid ja koostage nende võrrandite graafikud.

Sirgeregressiooni Y kalle X-l on valimi regressioonikordaja

Koefitsient b=

Me saame soovitud regressioonisirge Y võrrandi X-l:

Y = 0,202 X + 1,024

Samamoodi on Y regressioonivõrrand X:

Sirgeregressiooni Y kalle X-l on regressioonikordaja valimi pxy:

Koefitsient b=

X \u003d 4,119 Y - 3,714

3. Mittelineaarne regressioon

Kui majandusnähtuste vahel on mittelineaarsed seosed, siis neid väljendatakse vastavate mittelineaarsete funktsioonide abil.

Mittelineaarseid regressioone on kahte klassi:

1. Regressioonid, mis on analüüsis sisalduvate selgitavate muutujate suhtes mittelineaarsed, kuid hinnanguliste parameetrite suhtes lineaarsed, näiteks:

Erineva astme polünoomid

Võrdkülgne hüperbool - ;

Poollogaritmiline funktsioon - .

2. Regressioonid, mis on hinnanguliste parameetrite poolest mittelineaarsed, näiteks:

Võimsus - ;

Demonstratiivne -;

Eksponentsiaalne – .

Kaasatud muutujate mittelineaarsed regressioonid taandatakse muutujate lihtsa muutmise teel lineaarseks ja parameetrite edasine hindamine toimub vähimruutude meetodil. Vaatleme mõnda funktsiooni.

Teise astme parabool taandatakse lineaarsele kujule, kasutades asendust: . Selle tulemusena jõuame kahefaktorilise võrrandini, mille parameetrite hindamine vähimruutude meetodil viib võrrandisüsteemini:

Teise astme parabooli kasutatakse tavaliselt juhtudel, kui teatud faktoriväärtuste intervalli korral muutub vaadeldavate tunnuste seose olemus: otsene seos muutub pöördvõrdeliseks või pöördsuhe otseseks.

Võrdkülgse hüperbooli abil saab iseloomustada toorme, materjalide, kütuse erikulude ja toodangu mahu, kauba ringluse aja ja käibe väärtuse vahelist seost. Selle klassikaline näide on Phillipsi kõver, mis iseloomustab mittelineaarset seost töötuse määra vahel. x ja protsentuaalne palgatõus y.

Hüperbool taandatakse lineaarvõrrandiks lihtsa asendusega: . Lineaarvõrrandisüsteemi koostamiseks saate kasutada ka vähimate ruutude meetodit.

Sarnaselt taandatakse sõltuvused lineaarsele kujule: , ja teised.

Engeli kõvera kirjeldamiseks kasutatakse võrdkülgset hüperbooli ja poollogaritmilist kõverat (kestvuskaupadele tehtavate kulutuste osa ja kogukulutuste (või sissetulekute) vahelise seose matemaatiline kirjeldus). Võrrandeid, milles need sisalduvad, kasutatakse tootlikkuse, põllumajandusliku tootmise töömahukuse uuringutes.

4. Mitmekordne regressioon

Mitu regressiooni – mitme sõltumatu muutujaga lingi võrrand:

kus on sõltuv muutuja (tulemusmärk);

Sõltumatud muutujad (tegurid).

Mitme regressioonivõrrandi koostamiseks kasutatakse kõige sagedamini järgmisi funktsioone:

lineaarne -

võimsus -

eksponent -

hüperbool - .

Saate kasutada muid funktsioone, mida saab taandada lineaarsele kujule.

Mitme regressioonivõrrandi parameetrite hindamiseks kasutatakse vähimruutude meetodit (LSM). Lineaarsete võrrandite ja lineaarseteks taandatavate mittelineaarsete võrrandite jaoks koostatakse järgmine normaalvõrrandi süsteem, mille lahendamine võimaldab saada regressiooniparameetrite hinnanguid:

Selle lahendamiseks saab kasutada determinantide meetodit:

kus on süsteemi determinant;

Privaatsed määrajad; mis saadakse süsteemi determinandi maatriksi vastava veeru asendamisel süsteemi vasaku poole andmetega.

Teine mitmekordse regressiooni võrrandi tüüp on standardskaalaga regressioonivõrrand, LSM on rakendatav mitmekordse regressiooni võrrandi jaoks standardskaalal.

5. KasutaminePRLEXCELregressioonianalüüsi tegemiseks

Regressioonanalüüs tuvastab juhusliku muutuja Y (sõltuv) ja ühe või mitme muutuja väärtuste (sõltumatu) vahelise seose vormi ning viimaste väärtusi peetakse täpselt antud. Sellise sõltuvuse määrab tavaliselt mõni matemaatiline mudel (regressioonivõrrand), mis sisaldab mitmeid tundmatuid parameetreid. Regressioonanalüüsi käigus leitakse näidisandmete põhjal nende parameetrite hinnangud, määratakse hinnangute statistilised vead või usaldusvahemike piirid ning kontrollitakse aktsepteeritud matemaatilise mudeli vastavust (adekvaatsust) katseandmetele.

Lineaarse regressioonianalüüsi puhul eeldatakse, et juhuslike suuruste vaheline seos on lineaarne. Lihtsamal juhul on paaris lineaarse regressioonimudeli puhul kaks muutujat X ja Y. Ja see on vajalik n vaatluspaari jaoks (X1, Y1), (X2, Y2), ..., (Xn, Yn) ehitada (valida) sirge, mida nimetatakse regressioonijooneks ja mis on vaadeldavatele väärtustele "kõige parem". Selle sirge võrrand y=ax+b on regressioonivõrrand. Regressioonivõrrandi abil saate ennustada sõltuva muutuja y eeldatavat väärtust, mis vastab sõltumatu muutuja x antud väärtusele. Juhul, kui vaadeldakse sõltuvust ühe sõltuva muutuja Y ja mitme sõltumatu muutuja X1, X2, ..., Xm vahel, räägitakse mitmekordsest lineaarsest regressioonist.

Sel juhul on regressioonivõrrandil vorm

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m,

kus a0, a1, a2, …, am on määratavad regressioonikoefitsiendid.

Regressioonivõrrandi koefitsiendid määratakse vähimruutude meetodil, saavutades muutuja Y tegelike väärtuste ja regressioonivõrrandi abil arvutatud erinevuste minimaalse võimaliku ruudusumma. Seega saab näiteks lineaarse regressiooni võrrandi koostada ka siis, kui lineaarne korrelatsioon puudub.

Regressioonimudeli efektiivsuse mõõdik on determinatsioonikordaja R2 (R-ruut). Määramiskoefitsient võib võtta väärtusi vahemikus 0 kuni 1, mis määrab, millise täpsusega saadud regressioonivõrrand kirjeldab (ligikaudne) algandmeid. Samuti uuritakse regressioonimudeli olulisust F-kriteeriumi (Fisher) abil ning koefitsientide a0, a1, a2, ..., am nullist erinevuse usaldusväärsust kontrollitakse Studenti t-testi abil.

Excelis on katseandmed ligikaudsed lineaarvõrrandiga kuni 16. järguni:

y = a0+a1x1+a2x2+…+a16x16

Lineaarsete regressioonikoefitsientide saamiseks saab kasutada analüüsipaketist "Regression" protseduuri. Lisaks annab funktsioon LINEST täielikku teavet lineaarse regressiooni võrrandi kohta. Lisaks saab funktsioone SLOPE ja INTERCEPT kasutada regressioonivõrrandi parameetrite saamiseks ning funktsioone TREND ja FORECAST kasutada prognoositud Y väärtuste saamiseks vajalikes punktides (paaripõhiseks regressiooniks).

Vaatleme üksikasjalikult funktsiooni LINEST (tuntud_y, [tuntud_x], [konstant], [statistika] rakendamist): teada_y - sõltuva parameetri Y teadaolevate väärtuste vahemik. Paaripõhises regressioonanalüüsis võib sellel olla mis tahes kujul; mitmuses peab see olema kas rida või veerg; teada_x on ühe või mitme sõltumatu parameetri teadaolevate väärtuste vahemik. Peab olema sama kujuga kui Y-vahemikul (mitme parameetri, mitme veeru või rea korral vastavalt); konstant - Boole'i ​​argument. Kui regressioonianalüüsi ülesande praktilisest tähendusest lähtuvalt on vajalik, et regressioonisirge läbiks alguspunkti, st vaba koefitsient võrdub 0-ga, tuleks selle argumendi väärtuseks määrata 0 (või “ vale”). Kui väärtuseks on seatud 1 (või "tõene") või see jäetakse välja, arvutatakse vaba koefitsient tavapärasel viisil; statistika on tõepärane argument. Kui väärtuseks on seatud 1 (või "tõene"), tagastatakse täiendav regressioonistatistika (vt tabelit), mida kasutatakse mudeli tõhususe ja olulisuse hindamiseks. Üldjuhul näeb paaripõhise regressiooni y=ax+b korral välja funktsiooni LINEST rakendamise tulemus järgmine:

Tabel. LINEST-i väljundvahemik paaripõhise regressioonianalüüsi jaoks

Võrrandi y=a0+a1x1+a2x2+…+amxm mitmekordse regressioonianalüüsi korral kuvatakse esimesel real koefitsiendid am,…,a1,a0 ja nende koefitsientide standardvead teisel real. . Read 3–5, välja arvatud kaks esimest regressioonistatistikaga täidetud veergu, annavad #N/A.

Funktsioon LINEST tuleks sisestada massiivivalemina, valides esmalt tulemuseks soovitud suurusega massiivi (m+1 veergu ja 5 rida, kui on vaja regressioonistatistikat) ning lõpetada valemi sisestus vajutades CTRL+SHIFT+ENTER.

Meie näite tulemus:

Lisaks on programmil sisseehitatud funktsioon – Data Analysis vahekaardil Andmed.

Seda saab kasutada ka regressioonanalüüsi tegemiseks:

Slaidil - Andmeanalüüsi abil tehtud regressioonanalüüsi tulemus.

TULEMUSED

Regressioonistatistika

Mitu R

R-ruut

Normaliseeritud R-ruut

standardviga

Tähelepanekud

Dispersioonanalüüs

Tähtsus F

Regressioon

Koefitsiendid

standardviga

t-statistika

P-väärtus

alumine 95%

Top 95%

Madalam 95,0%

Top 95,0%

Y-ristmik

Muutuja X 1

Regressioonivõrrandid, mida me varem vaatlesime, on samuti üles ehitatud MS Excelis. Nende teostamiseks koostatakse esmalt hajuvusdiagramm, seejärel valige kontekstimenüüst - Lisa trendijoon. Uues aknas märkige ruudud - Näidake diagrammil võrrandit ja asetage diagrammile lähenduskindluse väärtus (R ^ 2).

Kirjandus:

  1. Tõenäosusteooria ja matemaatiline statistika. Gmurman V. E. Õpik ülikoolidele. - Toim. 10., sr. - M.: Kõrgem. kool, 2010. - 479s.
  2. Kõrgem matemaatika harjutustes ja ülesannetes. Õpik ülikoolidele / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. 2 tunni pärast - toim. 6., sr. - M .: Kirjastus Oniks LLC: kirjastus Mir and Education, 2007. - 416 lk.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - veidi teavet regressioonanalüüsi kohta

Regressiooni mõiste. Muutujate vaheline seos x ja y saab kirjeldada erineval viisil. Eelkõige saab mis tahes tüüpi seost väljendada üldvõrrandiga , kus y käsitletakse sõltuva muutujana või funktsioonid teisest - sõltumatu muutuja x, mida nimetatakse argument. Argumendi ja funktsiooni vastavust saab anda tabeli, valemi, graafiku jne abil. Funktsiooni muutmine olenevalt ühe või mitme argumendi muutumisest kutsutakse välja regressioon. Kõik korrelatsioonide kirjeldamiseks kasutatavad vahendid on sisu regressioonianalüüs.

Regressiooni väljendamiseks kasutatakse korrelatsioonivõrrandid ehk regressioonivõrrandid, empiirilised ja teoreetiliselt arvutatud regressiooniread, nende graafikud, mida nimetatakse regressioonijoonteks, samuti lineaarsed ja mittelineaarsed regressioonikordajad.

Regressiooninäitajad väljendavad korrelatsiooni kahesuunaliselt, võttes arvesse atribuudi keskmiste väärtuste muutust Y väärtuste muutmisel x i märk X ja vastupidi, näidata funktsiooni keskmiste väärtuste muutust X muudetud väärtuste järgi y i märk Y. Erandiks on aegread ehk dünaamika jadad, mis näitavad märkide muutumist ajas. Selliste seeriate regressioon on ühepoolne.

Korrelatsioonidel on palju erinevaid vorme ja tüüpe. Ülesanne taandub igal konkreetsel juhul seose vormi tuvastamisele ja selle väljendamisele vastava korrelatsioonivõrrandiga, mis võimaldab ette näha võimalikke muutusi ühes märgis Y teadaolevate muudatuste põhjal X, mis on seotud esimese korrelatsiooniga.

12.1 Lineaarne regressioon

Regressioonivõrrand. Konkreetse bioloogilise objektiga tehtud vaatluste tulemused vastavalt korrelatsioonitunnustele x ja y, saab esitada punktidega tasapinnal, konstrueerides ristkülikukujuliste koordinaatide süsteemi. Selle tulemusena saadakse teatud hajuvusdiagramm, mis võimaldab hinnata erinevate tunnuste vahelise seose vormi ja tihedust. Üsna sageli näeb see suhe välja nagu sirgjoon või seda saab ligikaudselt võrrelda sirgjoonega.

Lineaarne seos muutujate vahel x ja y kirjeldatakse üldvõrrandiga , kus a, b, c, d,… on võrrandi parameetrid, mis määravad argumentide vahelise seose x 1 , x 2 , x 3 , …, x m ja funktsioonid.

Praktikas ei võeta arvesse kõiki võimalikke argumente, vaid ainult mõnda argumenti, kõige lihtsamal juhul ainult ühte:

Lineaarse regressiooni võrrandis (1) a on vaba termin ja parameeter b määrab regressioonisirge kalde ristkülikukujuliste koordinaatide telgede suhtes. Analüütilises geomeetrias nimetatakse seda parameetrit kaldetegur ja biomeetrias - regressioonikoefitsient. Selle parameetri visuaalne esitus ja regressioonijoonte asukoht Y peal X ja X peal Y ristkülikukujuliste koordinaatide süsteemis annab Joon.1.

Riis. 1 Y X ja X Y regressioonisirge süsteemis

ristkülikukujulised koordinaadid

Regressioonijooned, nagu on näidatud joonisel 1, lõikuvad punktis O (,), mis vastavad üksteisega korrelatsioonis olevate märkide aritmeetilisele keskmisele väärtusele. Y ja X. Regressioonigraafikute joonistamisel kantakse sõltumatu muutuja X väärtused piki abstsissi ja sõltuva muutuja ehk funktsiooni Y väärtused piki ordinaati. Punkti O läbiv sirge AB (, ) vastab muutujatevahelisele täielikule (funktsionaalsele) seosele Y ja X kui korrelatsioonikordaja . Mida tugevam on seos Y ja X, mida lähemal on regressioonisirge AB-le ja vastupidi, mida nõrgem on nende väärtuste vaheline seos, seda kaugemal on regressioonisirge AB-st. Tunnuste vahelise seose puudumisel on regressioonijooned üksteise suhtes täisnurga all ja .

Kuna regressiooninäitajad väljendavad korrelatsiooni kahesuunaliselt, tuleks regressioonivõrrand (1) kirjutada järgmiselt:

Esimese valemi kohaselt määratakse keskmised väärtused märgi muutumisel X mõõtühiku kohta, teisel - keskmistatud väärtused, kui tunnust muudetakse mõõtühiku kohta Y.

Regressioonikoefitsient. Regressioonikordaja näitab, kuidas keskmiselt ühe tunnuse väärtus y muutub, kui teine ​​mõõtühik on korrelatsioonis Y märk X. See näitaja määratakse valemiga

Siin on väärtused s korrutada klassivahede suurusega λ kui need leiti variatsiooniridade või korrelatsioonitabelite abil.

Regressioonikordaja saab arvutada standardhälbete arvutamisest mööda minnes s y ja s x valemi järgi

Kui korrelatsioonikordaja on teadmata, määratakse regressioonikordaja järgmiselt:

Regressiooni- ja korrelatsioonikordajate seos. Võrreldes valemeid (11.1) (teema 11) ja (12.5), näeme, et nende lugeja sisaldab sama väärtust , mis näitab seost nende näitajate vahel. Seda suhet väljendab võrdsus

Seega on korrelatsioonikordaja võrdne koefitsientide geomeetrilise keskmisega b yx ja b xy. Valem (6) võimaldab esiteks regressioonikoefitsientide teadaolevatest väärtustest b yx ja b xy määrata regressioonikordaja R xy ja teiseks kontrollida selle korrelatsiooninäitaja arvutamise õigsust R xy erinevate tunnuste vahel X ja Y.

Sarnaselt korrelatsioonikoefitsiendiga iseloomustab regressioonikordaja ainult lineaarset seost ja sellega kaasneb positiivse seose pluss ja negatiivse seose miinusmärk.

Lineaarse regressiooni parameetrite määramine. On teada, et variandi hälvete ruudu summa x i keskmisest on väikseim väärtus, st see teoreem on vähimruutude meetodi aluseks. Lineaarse regressiooni osas [vt valem (1)], on selle teoreemi nõue täidetud teatud võrrandisüsteemiga, mida nimetatakse normaalne:

Nende võrrandite ühislahendus parameetrite suhtes a ja b viib järgmiste tulemusteni:

;

;

, kust ma.

Arvestades muutujatevahelise seose kahepoolset iseloomu Y ja X, parameetri määramise valem a tuleks väljendada järgmiselt:

ja . (7)

Parameeter b, või regressioonikordaja, määratakse järgmiste valemitega:

Empiirilise regressioonirea konstrueerimine. Suure hulga vaatluste olemasolul alustatakse regressioonianalüüsi empiiriliste regressiooniridade koostamisega. Empiiriline regressioonirea moodustatakse ühe muutuja atribuudi väärtuste arvutamisel X teise keskmised väärtused, mis on korrelatsioonis X märk Y. Teisisõnu, empiirilise regressioonirea konstrueerimine taandub sellele, et märkide Y ja X vastavate väärtuste põhjal leitakse rühm tähendab u.

Empiiriline regressioonirida on topeltarvude jada, mida saab esitada tasapinna punktidega ja seejärel, ühendades need punktid sirge lõikudega, saab empiirilise regressioonisirge. Empiirilised regressiooniread, eriti nende graafikud, nn regressioonijooned, annavad visuaalse esituse erinevate tunnuste vahelise korrelatsioonisõltuvuse vormist ja tihedusest.

Empiirilise regressioonirea võrdsustus. Empiiriliste regressiooniridade graafikud on reeglina pigem katkendlikud kui siledad jooned. Seda seletatakse asjaoluga, et lisaks peamistele põhjustele, mis määravad korrelatsioonitunnuste varieeruvuse üldise mustri, mõjutavad nende väärtust arvukad sekundaarsed põhjused, mis põhjustavad regressiooni sõlmpunktides juhuslikke kõikumisi. Korrelatsioonitunnuste konjugeeritud variatsiooni peamise trendi (trendi) tuvastamiseks peate katkendjooned asendama sujuvate sujuvalt jooksvate regressioonijoontega. Katkendsete joonte siledatega asendamise protsessi nimetatakse empiiriliste seeriate joondamine ja regressioonijooned.

Graafiline joondusmeetod. See on kõige lihtsam meetod, mis ei nõua arvutustööd. Selle olemus on järgmine. Empiiriline regressiooniseeria joonistatakse graafikuna ristkülikukujulises koordinaatsüsteemis. Seejärel visandatakse visuaalselt regressiooni keskpunktid, mida mööda tõmmatakse joonlaua või mustriga pidev joon. Selle meetodi puudus on ilmne: see ei välista uurija individuaalsete omaduste mõju empiiriliste regressioonisirgete joondamise tulemustele. Seetõttu kasutatakse juhtudel, kui katkiste regressioonijoonte asendamisel siledatega on vaja suuremat täpsust, empiiriliste seeriate joondamiseks muid meetodeid.

Liikuva keskmise meetod. Selle meetodi olemus on taandatud empiirilise jada kahe või kolme naaberliikme aritmeetilise keskmise järjestikuse arvutamiseni. See meetod on eriti mugav juhtudel, kui empiirilist seeriat esindab suur hulk termineid, nii et nende kahe - äärmuslike - kaotamine, mis on selle võrdsusmeetodi puhul vältimatu, ei mõjuta selle struktuuri märgatavalt.

Vähima ruudu meetod. Selle meetodi pakkus 19. sajandi alguses välja A.M. Legendre ja temast sõltumatult K. Gauss. See võimaldab teil empiirilisi seeriaid kõige täpsemalt joondada. See meetod, nagu ülal näidatud, põhineb eeldusel, et variandi hälvete ruudu summa x i nende keskmisest on minimaalne väärtus, s.t siit ka meetodi nimetus, mida kasutatakse mitte ainult ökoloogias, vaid ka tehnoloogias. Vähimruutude meetod on objektiivne ja universaalne, seda kasutatakse mitmesugustel juhtudel regressiooniridade empiiriliste võrrandite leidmisel ja nende parameetrite määramisel.

Vähimruutude meetodi nõue on, et regressioonisirge teoreetilised punktid tuleb saada nii, et empiiriliste vaatluste jaoks oleks nendest punktidest kõrvalekallete ruudu summa. y i oli minimaalne, st.

Arvutades selle avaldise miinimumi vastavalt matemaatilise analüüsi põhimõtetele ja teisendades seda teatud viisil, võib saada süsteemi nn. normaalvõrrandid, milles tundmatud väärtused on regressioonivõrrandi soovitud parameetrid ja teadaolevad koefitsiendid määratakse tunnuste empiiriliste väärtustega, tavaliselt nende väärtuste summade ja nende ristkorrutistega.

Mitmekordne lineaarne regressioon. Mitme muutuja vahelist seost väljendatakse tavaliselt mitmekordse regressioonivõrrandiga, mis võib olla lineaarne ja mittelineaarne. Lihtsamal kujul väljendatakse mitmekordset regressiooni kahe sõltumatu muutujaga võrrandiga ( x, z):

kus a on võrrandi vaba liige; b ja c on võrrandi parameetrid. Võrrandi (10) parameetrite leidmiseks (vähimruutude meetodil) kasutatakse järgmist normaalvõrrandi süsteemi:

Dünaamika read. Ridade joondamine. Märkide muutumine ajas moodustab nn aegrida või dünaamika read. Sellistele seeriatele on iseloomulik, et ajategur toimib siin alati sõltumatu muutujana X ja muutuvaks märgiks on sõltuv muutuja Y. Sõltuvalt regressioonireast on muutujate X ja Y vaheline seos ühepoolne, kuna ajategur ei sõltu tunnuste muutlikkusest. Vaatamata nendele omadustele saab aegridu võrrelda regressiooniridadega ja töödelda samade meetoditega.

Sarnaselt regressiooniridadele ei mõjuta empiirilisi aegridu mitte ainult peamised, vaid ka arvukad sekundaarsed (juhuslikud) tegurid, mis varjavad tunnuste varieeruvuse peamist trendi, mida statistika keeles nimetatakse nn. trend.

Aegridade analüüs algab trendi kuju tuvastamisest. Selleks on aegrida kujutatud joongraafikuna ristkülikukujulises koordinaatsüsteemis. Samal ajal kantakse ajapunktid (aastad, kuud ja muud ajaühikud) piki abstsisstellge ning sõltuva muutuja Y väärtused joonistatakse piki ordinaattelge. on regressioonivõrrand kujul sõltuva muutuja Y jada liikmete kõrvalekalded sõltumatu muutuja X jada aritmeetilisest keskmisest:

Siin on lineaarse regressiooni parameeter.

Dünaamika jada numbrilised karakteristikud. Dünaamikaseeria peamised üldistavad numbrilised omadused hõlmavad järgmist geomeetriline keskmine ja sellele lähedane aritmeetiline keskmine. Need iseloomustavad keskmist kiirust, millega sõltuva muutuja väärtus teatud ajavahemike jooksul muutub:

Dünaamikaseeria tingimuste varieeruvuse hinnang on standardhälve. Aegridade kirjeldamiseks regressioonivõrrandite valimisel võetakse arvesse trendi kuju, mis võib olla lineaarne (või taandatud lineaarseks) ja mittelineaarne. Regressioonivõrrandi valiku õigsust hinnatakse tavaliselt sõltuva muutuja empiiriliselt vaadeldud ja arvutatud väärtuste sarnasuse järgi. Selle ülesande lahendamisel on täpsem dispersioonanalüüsi regressioonanalüüsi meetod (teema 12 lk.4).

Dünaamika ridade korrelatsioon. Sageli on vaja võrrelda paralleelsete aegridade dünaamikat, mis on omavahel seotud mingite üldiste tingimustega, näiteks selleks, et selgitada välja seos põllumajandusliku tootmise ja kariloomade juurdekasvu vahel teatud ajaperioodil. Sellistel juhtudel iseloomustab muutujate X ja Y vahelist seost korrelatsioonikordaja R xy (lineaarse trendi olemasolul).

On teada, et dünaamika jada trendi varjavad reeglina sõltuva muutuja Y jadade kõikumised. Seega tekib kahekordne probleem: võrrelda võrreldavate seeriate vahelise sõltuvuse mõõtmist, välistamata trendi ja sama seeria külgnevate liikmete vahelise sõltuvuse mõõtmist, välja arvatud trend. Esimesel juhul on võrreldavate dünaamikaseeriate vahelise seose tiheduse näitaja korrelatsioonikordaja(kui suhe on lineaarne), teises - autokorrelatsiooni koefitsient. Nendel näitajatel on erinevad väärtused, kuigi need arvutatakse samade valemite abil (vt teema 11).

On hästi näha, et autokorrelatsioonikordaja väärtust mõjutab sõltuva muutuja rea ​​liikmete varieeruvus: mida vähem rea liikmed trendist kõrvale kalduvad, seda suurem on autokorrelatsioonikordaja ja vastupidi.

Faktor- ja resultantmärkide vahelise korrelatsiooni olemasolul peavad arstid sageli kindlaks tegema, kui palju võib ühe märgi väärtus muutuda, kui teist muudetakse üldtunnustatud või uurija enda kehtestatud mõõtühikuga.

Näiteks kuidas muutub 1. klassi kooliõpilaste (tüdrukute või poiste) kehakaal, kui nende pikkus suureneb 1 cm. Selleks kasutatakse regressioonanalüüsi meetodit.

Kõige sagedamini kasutatakse regressioonanalüüsi meetodit füüsilise arengu normskaalade ja standardite väljatöötamiseks.

  1. Regressiooni definitsioon. Regressioon on funktsioon, mis võimaldab ühe atribuudi keskmise väärtuse põhjal määrata teise atribuudi keskmise väärtuse, mis on korrelatsioonis esimesega.

    Sel eesmärgil kasutatakse regressioonikoefitsienti ja mitmeid muid parameetreid. Näiteks saate arvutada külmetushaiguste arvu keskmiselt igakuise keskmise õhutemperatuuri teatud väärtustel sügis-talvisel perioodil.

  2. Regressioonikordaja määratlus. Regressioonikoefitsient on absoluutväärtus, mille võrra ühe tunnuse väärtus keskmiselt muutub, kui muu sellega seotud atribuut muutub kehtestatud mõõtühiku võrra.
  3. Regressioonikordaja valem. R y / x \u003d r xy x (σ y / σ x)
    kus R y / x - regressioonikoefitsient;
    r xy - tunnuste x ja y vaheline korrelatsioonikordaja;
    (σ y ja σ x) - tunnuste x ja y standardhälbed.

    Meie näites ;
    σ x = 4,6 (õhutemperatuuri standardhälve sügis-talvisel perioodil;
    σ y = 8,65 (nakkuslike külmetushaiguste arvu standardhälve).
    Seega on R y/x regressioonikordaja.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, s.o. kuu keskmise õhutemperatuuri (x) langusega 1 kraadi võrra muutub sügis-talvisel perioodil keskmine nakkushaiguste (y) arv 1,8 juhtumi võrra.

  4. Regressioonivõrrand. y \u003d M y + R y / x (x - M x)
    kus y on atribuudi keskmine väärtus, mis tuleks määrata, kui teise atribuudi (x) keskmine väärtus muutub;
    x - muu tunnuse teadaolev keskmine väärtus;
    R y/x - regressioonikordaja;
    M x, M y - tunnuste x ja y teadaolevad keskmised väärtused.

    Näiteks saab ilma erimõõtmisteta määrata nakkuslike külmetushaiguste keskmise arvu (y) iga kuu keskmise õhutemperatuuri (x) keskmise väärtuse juures. Seega, kui x \u003d - 9 °, R y / x \u003d 1,8 haigust, M x \u003d -7 °, M y \u003d 20 haigust, siis y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3 .6 = 23,6 haigust.
    Seda võrrandit rakendatakse kahe tunnuse (x ja y) vahelise sirgjoonelise seose korral.

  5. Regressioonivõrrandi eesmärk. Regressioonijoone joonistamiseks kasutatakse regressioonivõrrandit. Viimane võimaldab ilma erimõõtmisteta määrata ühe atribuudi mis tahes keskmist väärtust (y), kui teise tunnuse väärtus (x) muutub. Nende andmete põhjal koostatakse graafik - regressioonijoon, mida saab kasutada külmetushaiguste keskmise arvu määramiseks igakuise keskmise temperatuuri mis tahes väärtusel külmetushaiguste arvu arvutatud väärtuste vahelises vahemikus.
  6. Regressiooni sigma (valem).
    kus σ Ru/x - regressiooni sigma (standardhälve);
    σ y on tunnuse y standardhälve;
    r xy - tunnuste x ja y vaheline korrelatsioonikordaja.

    Niisiis, kui σ y on külmetushaiguste arvu standardhälve = 8,65; r xy - korrelatsioonikoefitsient külmetushaiguste arvu (y) ja kuu keskmise õhutemperatuuri vahel sügis-talvisel perioodil (x) on - 0,96, siis

  7. Sigma regressiooni eesmärk. Annab saadud tunnuse (y) mitmekesisuse mõõdu tunnuse.

    Näiteks iseloomustab see külmetushaiguste arvu mitmekesisust igakuise keskmise õhutemperatuuri teatud väärtusel sügis-talvisel perioodil. Niisiis võib keskmine külmetushaiguste arv õhutemperatuuril x 1 \u003d -6 ° ulatuda 15,78 haigusest 20,62 haiguseni.
    Kui x 2 = -9°, võib keskmine külmetushaiguste arv ulatuda 21,18 haigusest 26,02 haiguseni jne.

    Regressioonisigmat kasutatakse regressiooniskaala koostamisel, mis kajastab efektiivse atribuudi väärtuste kõrvalekaldeid selle regressioonijoonele kantud keskmisest väärtusest.

  8. Regressiooniskaala arvutamiseks ja joonistamiseks vajalikud andmed
    • regressioonikordaja - Ry/x;
    • regressioonivõrrand - y \u003d M y + R y / x (x-M x);
    • regressioonisigma - σ Rx/y
  9. Arvutuste jada ja regressiooniskaala graafiline esitus.
    • määrata regressioonikordaja valemiga (vt punkt 3). Näiteks tuleks määrata, kui palju muutub kehakaal keskmiselt (sõltuvalt soost teatud vanuses), kui keskmine pikkus muutub 1 cm võrra.
    • vastavalt regressioonivõrrandi valemile (vt lõik 4) määrake, milline on keskmine, näiteks kehakaal (y, y 2, y 3 ...) * teatud kasvuväärtuse (x, x 2, x 3 ...) .
      ________________
      * "y" väärtus tuleks arvutada vähemalt kolme teadaoleva "x" väärtuse jaoks.

      Samal ajal on teada teatud vanuse ja soo keskmised kehakaalu ja pikkuse (M x ja M y) väärtused

    • arvutage regressiooni sigma, teades vastavaid σ y ja r xy väärtusi ning asendades nende väärtused valemiga (vt lõik 6).
    • põhinevad teadaolevatel väärtustel x 1, x 2, x 3 ja neile vastavatel keskmistel väärtustel y 1, y 2 y 3, samuti väikseimal (y - σ ru / x) ja suurimal (y + σ ru) / x) väärtused(y) konstrueerivad regressiooniskaala.

      Regressiooniskaala graafiliseks esitamiseks märgitakse graafikule esmalt väärtused x, x 2 , x 3 (y-telg), s.o. koostatakse regressioonisirge, näiteks kehakaalu (y) sõltuvus pikkusest (x).

      Seejärel märgitakse vastavatesse punktidesse y 1 , y 2 , y 3 regressioonisigma arvväärtused, s.o. leidke graafikult y 1 , y 2 , y 3 väikseim ja suurim väärtus.

  10. Regressiooniskaala praktiline kasutamine. Töötatakse välja normskaalad ja standardid, eelkõige füüsilise arengu jaoks. Standardskaala järgi on võimalik anda individuaalne hinnang laste arengule. Samas hinnatakse füüsilist arengut harmooniliseks, kui näiteks teatud pikkuse juures on lapse kehamass ühe regressioonisigma piires keskmise arvestusliku kehakaalu ühikuga - (y) antud pikkuse (x) puhul ( y ± 1 σ Ry / x).

    Füüsilist arengut peetakse kehakaalu osas ebaharmooniliseks, kui lapse kehakaal on teatud pikkuse puhul teise regressioonisigma piires: (y ± 2 σ Ry/x)

    Füüsiline areng on järsult ebaharmooniline nii liigse kui ka ebapiisava kehakaalu tõttu, kui kehakaal on teatud pikkuse puhul regressiooni kolmanda sigma piires (y ± 3 σ Ry/x).

5-aastaste poiste füüsilise arengu statistilise uuringu tulemuste põhjal on teada, et nende keskmine pikkus (x) on 109 cm, keskmine kehakaal (y) 19 kg. Pikkuse ja kehakaalu korrelatsioonikoefitsient on +0,9, standardhälbed on toodud tabelis.

Nõutud:

  • arvutada regressioonikordaja;
  • regressioonivõrrandi abil määrake, milline on 5-aastaste poiste eeldatav kehakaal pikkusega x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • arvutada regressioonisigmat, koostada regressiooniskaala, esitada selle lahenduse tulemused graafiliselt;
  • teha vastavad järeldused.

Ülesande seisukord ja selle lahendamise tulemused on toodud koondtabelis.

Tabel 1

Probleemi tingimused Probleemi lahendamise tulemused
regressioonivõrrand sigma regressioon regressiooniskaala (eeldatav kehakaal (kg))
M σ r xy R y/x X Kell σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Kõrgus (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Kehakaal (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Lahendus.

Järeldus. Seega võimaldab arvutatud kehakaalu väärtuste regressiooniskaala teil seda määrata mis tahes muu kasvuväärtuse jaoks või hinnata lapse individuaalset arengut. Selleks taasta regressioonijoonega risti.

  1. Vlasov V.V. Epidemioloogia. - M.: GEOTAR-MED, 2004. - 464 lk.
  2. Lisitsyn Yu.P. Rahvatervis ja tervishoid. Õpik gümnaasiumile. - M.: GEOTAR-MED, 2007. - 512 lk.
  3. Medik V.A., Juriev V.K. Rahvatervise ja tervishoiu loengute kursus: 1. osa. Rahvatervis. - M.: Meditsiin, 2003. - 368 lk.
  4. Minjajev V.A., Višnjakov N.I. jt Sotsiaalmeditsiin ja tervishoiukorraldus (Juhend 2 köites). - Peterburi, 1998. -528 lk.
  5. Kutšerenko V.Z., Agarkov N.M. jt Sotsiaalhügieen ja tervishoiu korraldus (Õpetus) - Moskva, 2000. - 432 lk.
  6. S. Glantz. Meditsiini-bioloogiline statistika. Per inglise keelest. - M., Praktika, 1998. - 459 lk.

Statistilises modelleerimises on regressioonanalüüs uuring, mida kasutatakse muutujate vahelise seose hindamiseks. See matemaatiline meetod hõlmab paljusid muid meetodeid mitme muutuja modelleerimiseks ja analüüsimiseks, kui keskendutakse sõltuva muutuja ja ühe või mitme sõltumatu muutuja vahelisele suhtele. Täpsemalt aitab regressioonanalüüs mõista, kuidas sõltuva muutuja tüüpiline väärtus muutub, kui üks sõltumatutest muutujatest muutub, samal ajal kui teised sõltumatud muutujad jäävad fikseerituks.

Kõigil juhtudel on sihtskoor sõltumatute muutujate funktsioon ja seda nimetatakse regressioonifunktsiooniks. Regressioonanalüüsis pakub huvi ka sõltuva muutuja muutuse iseloomustamine regressiooni funktsioonina, mida saab kirjeldada tõenäosusjaotuse abil.

Regressioonanalüüsi ülesanded

Seda statistilist uurimismeetodit kasutatakse laialdaselt prognoosimisel, kus selle kasutamisel on oluline eelis, kuid mõnikord võib see põhjustada illusiooni või valesid seoseid, mistõttu on soovitatav seda antud küsimuses hoolikalt kasutada, kuna näiteks korrelatsioon ei tähenda põhjuslik seos.

Regressioonanalüüsi läbiviimiseks on välja töötatud suur hulk meetodeid, näiteks lineaarne ja tavaline vähimruutude regressioon, mis on parameetrilised. Nende olemus seisneb selles, et regressioonifunktsioon on defineeritud piiratud arvu tundmatute parameetrite kaudu, mida hinnatakse andmete põhjal. Mitteparameetriline regressioon võimaldab selle funktsioonil asuda teatud funktsioonide komplektis, mis võib olla lõpmatu mõõtmega.

Statistilise uurimismeetodina sõltub regressioonanalüüs praktikas andmete genereerimise protsessi vormist ja sellest, kuidas see seostub regressioonimeetodiga. Kuna andmeprotsessi genereerimise tegelik vorm on tavaliselt tundmatu arv, sõltub andmete regressioonianalüüs sageli teatud määral protsessi eeldustest. Need eeldused on mõnikord kontrollitavad, kui on piisavalt andmeid. Regressioonimudelid on sageli kasulikud isegi siis, kui eeldusi rikutakse mõõdukalt, kuigi need ei pruugi kõige paremini toimida.

Kitsamas tähenduses võib regressioon viidata spetsiifiliselt pidevate reaktsioonimuutujate hindamisele, erinevalt klassifitseerimisel kasutatavatest diskreetsetest reaktsioonimuutujatest. Pideva väljundmuutuja juhtumit nimetatakse ka meetriliseks regressiooniks, et eristada seda seotud probleemidest.

Lugu

Regressiooni varaseim vorm on üldtuntud vähimruutude meetod. Selle avaldasid Legendre 1805 ja Gauss 1809. Legendre ja Gauss rakendasid meetodit astronoomiliste vaatluste põhjal Päikese ümber paiknevate kehade (peamiselt komeetide, kuid hiljem ka äsja avastatud väikeplaneetide) orbiitide määramiseks. Gauss avaldas 1821. aastal vähimruutude teooria edasiarenduse, sealhulgas Gaussi-Markovi teoreemi variandi.

Mõiste "regressioon" võttis 19. sajandil kasutusele Francis Galton bioloogilise nähtuse kirjeldamiseks. Lõpptulemus oli see, et järeltulijate juurdekasv esivanemate kasvust taandub reeglina normaalsele keskmisele. Galtoni jaoks oli regressioonil ainult see bioloogiline tähendus, kuid hiljem võtsid tema töö üle Udni Yoley ja Karl Pearson ning viidi üldisemasse statistilisesse konteksti. Yule'i ja Pearsoni töödes peetakse vastuse- ja selgitavate muutujate ühisjaotust Gaussilikuks. Selle oletuse lükkas Fischer 1922. ja 1925. aasta paberites ümber. Fisher pakkus välja, et vastusemuutuja tingimuslik jaotus on Gaussi, kuid ühisjaotus ei pea olema. Sellega seoses on Fisheri soovitus lähemal Gaussi 1821. aasta formuleeringule. Enne 1970. aastat kulus regressioonanalüüsi tulemuse saamiseks mõnikord kuni 24 tundi.

Regressioonanalüüsi meetodid on jätkuvalt aktiivse uurimistöö valdkond. Viimastel aastakümnetel on jõuliseks regressiooniks välja töötatud uued meetodid; regressioonid, mis hõlmavad korreleeritud vastuseid; regressioonimeetodid, mis mahutavad erinevat tüüpi puuduvaid andmeid; mitteparameetriline regressioon; Bayesi regressioonimeetodid; regressioonid, mille puhul ennustavaid muutujaid mõõdetakse veaga; regressioonid, millel on rohkem ennustajaid kui vaatlusi, ja põhjuslikud järeldused regressiooniga.

Regressioonimudelid

Regressioonanalüüsi mudelid sisaldavad järgmisi muutujaid:

  • Tundmatud parameetrid, tähistatud kui beeta, mis võivad olla skalaar või vektor.
  • Sõltumatud muutujad, X.
  • Sõltuvad muutujad, Y.

Erinevates teadusvaldkondades, kus kasutatakse regressioonanalüüsi, kasutatakse sõltuvate ja sõltumatute muutujate asemel erinevaid termineid, kuid regressioonimudel seob Y igal juhul X ja β funktsiooniga.

Lähendus on tavaliselt sõnastatud järgmiselt: E (Y | X) = F (X, β). Regressioonanalüüsi tegemiseks tuleb määrata funktsiooni f kuju. Harvemini põhineb see teadmistel Y ja X vahelise seose kohta, mis ei tugine andmetele. Kui selliseid teadmisi ei ole, siis valitakse paindlik või mugav vorm F.

Sõltuv muutuja Y

Oletame nüüd, et tundmatute parameetrite vektori β pikkus on k. Regressioonanalüüsi tegemiseks peab kasutaja esitama teabe sõltuva muutuja Y kohta:

  • Kui vaadeldakse N andmepunkti kujul (Y, X), kus N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Kui vaadeldakse täpselt N = K ja funktsioon F on lineaarne, siis saab võrrandi Y = F(X, β) lahendada täpselt, mitte ligikaudselt. See taandub N-võrrandite komplekti lahendamisele N-tundmatutega (β elemendid), millel on kordumatu lahendus seni, kuni X on lineaarselt sõltumatu. Kui F on mittelineaarne, ei pruugi lahendust eksisteerida või lahendusi võib olla palju.
  • Kõige tavalisem on olukord, kus andmetel on N > punkti. Sel juhul on andmetes piisavalt teavet, et hinnata andmetega kõige paremini sobivat β unikaalset väärtust, ja andmetele rakendatud regressioonimudelit võib β-s vaadelda kui tühistatud süsteemi.

Viimasel juhul pakub regressioonanalüüs tööriistu:

  • Tundmatute parameetrite β jaoks lahenduse leidmine, mis vähendab näiteks Y mõõdetud ja prognoositud väärtuse vahelist kaugust.
  • Teatud statistiliste eelduste kohaselt kasutab regressioonanalüüs üleliigset teavet, et saada statistilist teavet tundmatute parameetrite β ja sõltuva muutuja Y prognoositud väärtuste kohta.

Nõutav arv sõltumatuid mõõtmisi

Vaatleme regressioonimudelit, millel on kolm tundmatut parameetrit: β 0 , β 1 ja β 2 . Oletame, et eksperimenteerija teeb 10 mõõtmist vektori X sõltumatu muutuja samas väärtuses. Sel juhul ei anna regressioonanalüüs unikaalset väärtuste kogumit. Parim, mida saate teha, on hinnata sõltuva muutuja Y keskmist ja standardhälvet. Samamoodi saate X kahe erineva väärtuse mõõtmisel saada piisavalt andmeid regressiooniks kahe tundmatuga, kuid mitte kolme või enama tundmatuga.

Kui katsetaja mõõtmised tehti sõltumatu vektori muutuja X kolme erineva väärtusega, annaks regressioonanalüüs β kolme tundmatu parameetri jaoks ainulaadse hinnangute komplekti.

Üldise lineaarse regressiooni korral on ülaltoodud väide samaväärne maatriksi X T X inverteeritava nõudega.

Statistilised eeldused

Kui mõõtmiste arv N on suurem kui tundmatute parameetrite arv k ja mõõtmisvead ε i , siis reeglina jagatakse mõõtmistes sisalduv üleliigne informatsioon jaotatakse ja kasutatakse statistilisteks prognoosideks tundmatute parameetrite osas. Seda liigset informatsiooni nimetatakse regressiooni vabadusastmeks.

Aluseks olevad oletused

Regressioonanalüüsi klassikalised eeldused hõlmavad järgmist:

  • Valimi võtmine esindab järelduste ennustamist.
  • Viga on juhuslik muutuja, mille keskmine väärtus on null, mis sõltub selgitavatest muutujatest.
  • Sõltumatuid muutujaid mõõdetakse vigadeta.
  • Sõltumatute muutujatena (prognoosidena) on nad lineaarselt sõltumatud, st ühtegi ennustajat ei ole võimalik väljendada teiste lineaarse kombinatsioonina.
  • Vead on korrelatsioonita, see tähendab, et diagonaalide vea kovariatsioonimaatriks ja iga nullist erinev element on vea dispersioon.
  • Vea dispersioon on vaatluste lõikes konstantne (homoskedastilisus). Kui ei, siis võib kasutada kaalutud vähimruutusid või muid meetodeid.

Nendel vähimruutude hinnangu piisavatel tingimustel on nõutavad omadused, eelkõige tähendavad need eeldused, et parameetrite hinnangud on objektiivsed, järjepidevad ja tõhusad, eriti kui neid võetakse arvesse lineaarsete hinnangute klassis. Oluline on märkida, et tegelikud andmed vastavad harva tingimustele. See tähendab, et meetodit kasutatakse isegi siis, kui eeldused ei ole õiged. Mudeli kasulikkuse mõõtmiseks võib mõnikord kasutada eeldustest kõrvalekaldumist. Paljusid neist eeldustest saab täiustatud meetoditega leevendada. Statistilise analüüsi aruanded sisaldavad tavaliselt prooviandmete ja mudeli kasulikkuse metoodika testide analüüsi.

Lisaks viitavad muutujad mõnel juhul punktides mõõdetud väärtustele. Muutujates võivad esineda ruumilised trendid ja ruumilised autokorrelatsioonid, mis rikuvad statistilisi eeldusi. Geograafiline kaalutud regressioon on ainus meetod, mis selliseid andmeid käsitleb.

Lineaarse regressiooni puhul on tunnuseks see, et sõltuv muutuja, milleks on Y i , on parameetrite lineaarne kombinatsioon. Näiteks lihtsas lineaarses regressioonis kasutab n-punktiline modelleerimine ühte sõltumatut muutujat x i ja kahte parameetrit β 0 ja β 1 ​​.

Mitme lineaarse regressiooni korral on mitu sõltumatut muutujat või nende funktsiooni.

Populatsioonist juhusliku valimi moodustamisel võimaldavad selle parameetrid saada lineaarse regressioonimudeli valimi.

Selles aspektis on kõige populaarsem vähimruutude meetod. See pakub parameetrite hinnanguid, mis minimeerivad jääkide ruutude summa. Selle funktsiooni selline minimeerimine (mis on tüüpiline lineaarse regressiooni korral) toob kaasa normaalvõrrandite komplekti ja parameetritega lineaarsete võrrandite komplekti, mis lahendatakse parameetrite hinnangute saamiseks.

Eeldades lisaks, et populatsiooniviga üldiselt levib, saab teadlane kasutada neid standardvigade hinnanguid usaldusvahemike loomiseks ja selle parameetrite hüpoteeside testimiseks.

Mittelineaarne regressioonianalüüs

Näide, kus funktsioon ei ole parameetrite suhtes lineaarne, näitab, et ruutude summa tuleks iteratiivse protseduuriga minimeerida. See toob kaasa palju komplikatsioone, mis määratlevad erinevused lineaarsete ja mittelineaarsete vähimruutude meetodite vahel. Sellest tulenevalt on regressioonanalüüsi tulemused mittelineaarse meetodi kasutamisel mõnikord ettearvamatud.

Võimsuse ja valimi suuruse arvutamine

Siin reeglina puuduvad järjekindlad meetodid vaatluste arvu ja sõltumatute muutujate arvu osas mudelis. Esimese reegli pakkusid välja Dobra ja Hardin ja see näeb välja selline N = t^n, kus N on valimi suurus, n on selgitavate muutujate arv ja t on soovitud täpsuse saavutamiseks vajalike vaatluste arv, kui mudelil oleks ainult üks selgitav muutuja. Näiteks loob teadlane lineaarse regressioonimudeli, kasutades andmestikku, mis sisaldab 1000 patsienti (N). Kui uurija otsustab, et sirge (m) täpseks määramiseks on vaja viit vaatlust, siis maksimaalne selgitavate muutujate arv, mida mudel saab toetada, on 4.

Muud meetodid

Kuigi regressioonimudeli parameetreid hinnatakse tavaliselt vähimruutude meetodil, on ka teisi meetodeid, mida kasutatakse palju harvemini. Näiteks on need järgmised meetodid:

  • Bayesi meetodid (näiteks Bayesi lineaarse regressiooni meetod).
  • Protsentuaalne regressioon, mida kasutatakse olukordades, kus protsentuaalsete vigade vähendamist peetakse sobivamaks.
  • Väikseimad absoluutsed kõrvalekalded, mis on tugevamad kvantiilse regressioonini viivate kõrvalekallete korral.
  • Mitteparameetriline regressioon, mis nõuab suurt hulka vaatlusi ja arvutusi.
  • Õppimismõõdiku kaugus, mida õpitakse antud sisestusruumis tähendusliku kaugusmõõdiku otsimisel.

Tarkvara

Kõik peamised statistikatarkvarapaketid teostatakse vähimruutude regressioonianalüüsi abil. Lihtsat lineaarset regressiooni ja mitmekordset regressioonianalüüsi saab kasutada nii mõnes arvutustabelirakenduses kui ka mõnes kalkulaatoris. Kuigi paljud statistikatarkvarapaketid suudavad teostada erinevat tüüpi mitteparameetrilist ja robustset regressiooni, on need meetodid vähem standardiseeritud; erinevad tarkvarapaketid rakendavad erinevaid meetodeid. Spetsiaalne regressioonitarkvara on välja töötatud kasutamiseks sellistes valdkondades nagu uuringuanalüüs ja neuroimaging.