Biograafiad Omadused Analüüs

Mitme lineaarse regressiooni näide. Lahendus Exceli tabeli abil

Mul on suur raamaturiiul, mis sisaldab palju raamatuid, mis on jagatud mitmesse sorti. Ülemisel riiulil on religioossed raamatud nagu Fiqh raamatud, Tauhid raamatud, Tasawufi raamatud, Nahwu raamatud jne. Need on paljudes ridades kenasti reas ja osad on kirjutajate sõnul kenasti ritta seatud. Teisel tasemel on minu õpitud raamatud, nagu grammatikaraamatud, kirjutamisraamatud, TOEFL-i raamatud jne. Need on paigutatud suuruste alusel. Järgmisel riiulil on palju erinevaid teaduslikud ja teadlikud raamatud; näiteks Filosoofiad, Poliitika, Ajalood jne. Nende jaoks on kolm taset. Lõpuks on mu raamaturiiuli allosas sõnaraamatud, araabia sõnastikud ja inglise keele sõnastikud, aga ka Indoneesia sõnastikud. Tõepoolest, minu suures raamaturiiulis on kuus taset ja need on mitmes reas. Esimesel tasemel on religioossed raamatud, teisel tasemel on minu õpitud raamatud, kolmetasemeline tase sisaldab mitmesuguseid teaduslikke ja teadmisi käsitlevaid raamatuid ning viimane tase hõlmab sõnaraamatuid. Ühesõnaga, ma armastan oma raamaturiiulit.

Konkreetne-üldine tellimus

Kirjutamiseks vajalikud oskused ulatuvad sobivate graafiliste märkide tegemisest valitud keele ressursside kasutamiseni kuni kavandatud lugejate reaktsioonide ennetamiseni. Esimene oskuste valdkond hõlmab kirjutamissüsteemi omandamist, mis võib olla tähestikuline (nagu Euroopa keeltes) või mittealfabeetiline (nagu paljudes Aasia keeltes). Teine oskuste valdkond nõuab sobiva grammatika ja sõnavara valimist, et moodustada vastuvõetavad laused, ning seejärel järjestada need lõikudeks. Kolmandaks hõlmab kirjutamine koostatava teksti eesmärgi ja selle võimalike mõjude üle mõtlemist kavandatavale lugejaskonnale. Selle viimase funktsiooni üks oluline aspekt on sobiva stiili valik. Erinevalt rääkimisest on kirjutamine keeruline sotsiaal-kognitiivne protsess, mis tuleb omandada aastatepikkuse koolituse või koolis käimise kaudu. (Swales ja Feak, 1994, lk 34)

Üldine tellimus

"Piggly Wiggly osalise tööajaga kassapidajana töötamine on andnud mulle suurepärase võimaluse jälgida inimeste käitumist. Mõnikord mõtlen ostjatest kui valgetest rottidest laborikatses ja vahekäikudest kui psühholoogi kujundatud labürindist. Enamik rotid – kliendid, ma mõtlen – järgivad rutiinset mustrit, kõnnivad mööda vahekäike üles ja alla, kontrollivad läbi minu renni ja põgenevad siis väljapääsuluugi kaudu. Ebatavaline klient: mälukaotus, super ostja ja pätt. ."

On palju tegureid, mis aitavad kaasa õpilaste edule kolledžis. Esimene tegur on eesmärgi püstitamine enne õppekava loomist. Eesmärk võib olla sama üldine kui soov end tulevikuks paremini harida. Konkreetsem eesmärk oleks teenida õpetajatunnistus. Teine õpilaste eduga seotud tegur on enesemotivatsioon ja pühendumus. Üliõpilane, kes tahab olla edukas ja töötab selle soovi nimel, leiab kolledži üliõpilasena edu kergesti. Kolmas üliõpilaste eduga seotud tegur on kolledžiteenuste kasutamine. Enamik alustavaid kolledžiõpilasi ei mõista, kui oluline võib olla nõustajaga kohtumine või raamatukoguhoidja või finantsabiametnikuga konsulteerimine.

On kolm põhjust, miks Kanada on üks neist parim riigid maailmas. Esiteks on Kanadal suurepärane tervishoiuteenus. Kõigil kanadalastel on juurdepääs meditsiiniteenustele mõistliku hinnaga. Teiseks on Kanadal kõrge haridustase. Õpilasi õpetatakse olema hästi koolitatud õpetajad ja neid julgustatakse ülikoolis edasi õppima. Lõpuks on Kanada linnad puhtad ja tõhusalt korraldatud. Kanada linnades on palju parke ja palju ruumi inimestele elamiseks. Seetõttu on Kanada ihaldusväärne koht elamiseks.

Yorki süüdistasid kuus Saksa sõdurit, kes tulid talle fikseeritud tääkidega kallale. Ta tõmbas kuuendale mehele helme, tulistas ja siis viiendale. Ta töötas liinil edasi ja enne kui ta arugi sai, oli esimene mees täiesti üksi. York tappis ta ühe lasuga.

Kui ta ülikoolilinnakus ringi vaatas, mis peaaegu ei muutunud, leevendas hely Nancyga koos veedetud hetki. Ta meenutas, kuidas nad kahekesi istusid tiigi ääres, vestlesid lõputult kalu toites, ja ka seda, kuidas nad oma maailma eksinud koos jalutasid. Jah, Nancy oli üks väheseid sõpru, kes tal kunagi olnud oli. … Ta oli äkki täis nostalgiat, kui ta meenutas sel pärastlõunal, et oli Nancyga hüvasti jätnud. Ta nuusutas valjult, kui ta silmad täitusid pisaratega.

Näited probleemide lahendamisest mitmekordse regressiooni korral

Näide 1 Regressioonivõrrand, mis on üles ehitatud 17 vaatlusele, on järgmine:

Korraldage puuduvad väärtused ja koostage jaoks usaldusvahemik b 2 tõenäosusega 0,99.

Lahendus. Puuduvad väärtused määratakse järgmiste valemite abil:

Seega näeb statistiliste tunnustega regressioonivõrrand välja järgmine:

Usaldusintervall jaoks b 2 ehitada vastava valemi järgi. Siin on olulisuse tase 0,01 ja vabadusastmete arv on nlk– 1 = 17 – 3 – 1 = 13, kus n= 17 – valimi suurus, lk= 3 on tegurite arv regressioonivõrrandis. Siit

või . See usaldusvahemik katab parameetri tegeliku väärtuse tõenäosusega 0,99.

Näide 2 Standardiseeritud muutujate regressioonivõrrand näeb välja järgmine:

Sel juhul on kõigi muutujate variatsioonid võrdsed järgmiste väärtustega:

Võrrelge tegureid vastavalt saadud tunnuse mõju astmele ja määrake osaelastsuskoefitsientide väärtused.

Lahendus. Standardiseeritud regressioonivõrrandid võimaldavad võrrelda tegureid nende mõju tugevuse järgi tulemusele. Samal ajal, mida suurem on standardiseeritud muutuja koefitsiendi absoluutväärtus, seda tugevamini see tegur sellest tulenevat tunnust mõjutab. Vaadeldavas võrrandis on tulemust kõige tugevamalt mõjutav tegur x 1, mille koefitsient on 0,82, kõige nõrgem on tegur x 3 koefitsiendiga - 0,43.

Lineaarses mitmikregressioonimudelis määratakse üldistatud (keskmine) osaelastsuse koefitsient avaldisega, mis sisaldab muutujate keskmisi väärtusi ja loomuliku skaala regressioonivõrrandi vastava teguri koefitsienti. Probleemi tingimustes neid koguseid ei täpsustata. Seetõttu kasutame muutujate suhtes variatsiooniks avaldisi:

Koefitsiendid bj seotud standardsete koefitsientidega β j vastava suhtega, mille asendame keskmise elastsusteguri valemiga:

.

Sel juhul langeb elastsusteguri märk märgiga kokku β j:

Näide 3 32 vaatluse põhjal saadi järgmised andmed:

Määrake korrigeeritud määramisteguri, osaliste elastsuskoefitsientide ja parameetri väärtused a.

Lahendus. Korrigeeritud määramiskoefitsiendi väärtus määratakse ühe selle arvutamise valemiga:

Osaelastsuskoefitsiendid (rahvastiku keskmine) arvutatakse vastavate valemite abil:

Kuna mitme regressiooni lineaarne võrrand viiakse läbi, asendades sellega kõigi muutujate keskmised väärtused, määrame parameetri a:

Näide 4 Mõne muutuja kohta on saadaval järgmine statistika.

Koostage regressioonivõrrand standardiseeritud ja loomulikes skaalades.

Lahendus. Kuna muutujate vahelised paaripõhised korrelatsioonikoefitsiendid on esialgu teada, tuleks alustada regressioonivõrrandi koostamisest standardskaalal. Selleks on vaja lahendada vastav normaalvõrrandi süsteem, mis kahe teguri puhul on kujul:

või pärast algandmete asendamist:

Lahendame selle süsteemi mis tahes viisil, saame: β1 = 0,3076, β2 = 0,62.

Kirjutame regressioonivõrrandi standardskaalal:

Liigume nüüd loomuliku skaala regressioonivõrrandi juurde, mille jaoks kasutame regressioonikordajate arvutamise valemeid läbi beetakoefitsientide ja keskmiste muutujate regressioonivõrrandi õigluse omaduse:

Loodusliku skaala regressiooni võrrand on järgmine:

Näide 5 Lineaarse mitmikregressiooni ehitamisel 48 mõõtmise korral oli määramiskoefitsient 0,578. Pärast tegurite kõrvaldamist x 3, x 7 ja x 8 determinatsioonikoefitsient vähenes 0,495-ni. Kas otsus muuta mõjutavate muutujate koostist olulisuse tasemetel 0,1, 0,05 ja 0,01 oli põhjendatud?

Lahendus. Olgu - algse tegurite kogumiga regressioonivõrrandi määramistegur, - determinatsioonikordaja pärast kolme teguri välistamist. Esitame hüpoteesid:

;

Põhihüpotees viitab sellele, et suurusjärgu vähenemine ei olnud märkimisväärne ja otsus välistada teatud tegurite rühm oli õige. Alternatiivne hüpotees näitab välistamisotsuse õigsust.

Nullhüpoteesi testimiseks kasutame järgmist statistikat:

,

kus n = 48, lk= 10 – tegurite esialgne arv, k= 3 - välistatud tegurite arv. Siis

Võrdleme saadud väärtust kriitilise väärtusega F(α ; 3; 39) tasemel 0,1; 0,05 ja 0,01:

F(0,1; 3; 37) = 2,238;

F(0,05; 3; 37) = 2,86;

F(0,01; 3; 37) = 4,36.

Tasemel α = 0,1 F obl > F kr, null - hüpotees lükatakse tagasi, selle tegurite rühma välistamine ei ole põhjendatud, tasemetel 0,05 0,01 null - hüpoteesi ei saa ümber lükata ja tegurite välistamist võib lugeda põhjendatuks.

Näide 6. Aastate 2000–2004 kvartaliandmete põhjal saadi võrrand. Samal ajal ESS=110,3, RSS=21,4 (ESS – selgitatud RMSE, RSS – jääk-RMSE). Võrrandisse lisati kolm näivat muutujat, mis vastavad aasta esimesele kolmele kvartalile, ja ESS-i väärtus tõusis 120,2-ni. Kas selles võrrandis on hooajalisus?

Lahendus. See on ülesanne kontrollida mitmekordse regressiooni võrrandisse tegurite rühma kaasamise õigsust. Algsele kolmetegurilisele võrrandile lisati kolm muutujat, mis esindavad aasta esimest kolme kvartalit.

Määrame võrrandite määramiskordajad. Kogu standardhälve määratletakse faktoriaal- ja jääkstandardhälbe summana:

TSS = ESS 1 + RSS 1 = 110,3 + 21,4 = 131,7

Testime hüpoteese. Nullhüpoteesi testimiseks kasutame statistikat

Siin n= 20 (20 kvartalit viie aasta jooksul – 2000–2004), lk = 6 (kokku tegurid regressioonivõrrandis pärast uute tegurite kaasamist), k= 3 (kaasatud tegurite arv). Sellel viisil:

Määrame Fisheri statistika kriitilised väärtused erinevatel olulisuse tasemetel:

Olulisuse tasemetel 0,1 ja 0,05 F obl> F kr, null - hüpotees lükatakse tagasi alternatiivse kasuks ja sesoonsus regressioonis on põhjendatud (õigustatud on kolme uue teguri lisamine) ja tasemel 0,01 F obl< F kr, ja null – hüpoteesi ei saa ümber lükata; uute tegurite lisamine ei ole põhjendatud, sesoonsus regressioonis ei ole oluline.

Näide 7 Heteroskedastilisuse andmete analüüsimisel jagati kogu valim pärast järjestamist ühe teguri järgi kolmeks osavalimiks. Seejärel tehti kolmeastmelise regressioonanalüüsi tulemuste põhjal kindlaks, et esimese osavalimi jääk-SD oli 180 ja kolmandas - 63. Kas heteroskedastilisuse esinemine on kinnitatud, kui iga osavalimi andmemaht on 20 ?

Lahendus. Arvutage statistika, et testida homoskedastilisuse nullhüpoteesi, kasutades Goldfeld-Quandti testi:

.

Leidke Fisheri statistika kriitilised väärtused:

Seetõttu olulisuse tasemetel 0,1 ja 0,05 F obl> F kr, ja toimub heteroskedastilisus ning tasemel 0,01 F obl< F kr ja homoskedastilisuse hüpoteesi ei saa ümber lükata.

Näide 8. Kvartaliandmete põhjal saadi mitmekordne regressioonivõrrand, mille puhul ESS = 120,32 ja RSS = 41,4. Sama mudeli puhul viidi regressioonid läbi eraldi järgmiste andmete põhjal: 1991 kvartal 1 - 1995 kvartal 1 ja 1995 kvartal 2 - 1996 kvartal 4. Nendes regressioonides olid jääkstandardhälbed vastavalt 22,25 ja 12,32. Kontrollige hüpoteesi struktuurimuutuste esinemise kohta valimis.

Lahendus. Struktuurimuutuste esinemise probleem proovis lahendatakse Chow testi abil.

Hüpoteesidel on vorm: , kus s0, s 1 ja s2 on vastavalt kogu valimi üksiku võrrandi jääkstandardhälbed ja kogu valimi kahe alamvalimi regressioonivõrrandid. Peamine hüpotees eitab valimis struktuursete muutuste olemasolu. Nullhüpoteesi testimiseks arvutatakse statistika ( n = 24; lk = 3):

Kuna F on statistika, mis on väiksem kui üks, tähendab null, et hüpoteesi ei saa ühegi olulisuse taseme puhul tagasi lükata. Näiteks olulisuse taseme 0,05 korral.

Regressioonanalüüs on statistiline uurimismeetod, mis võimaldab näidata parameetri sõltuvust ühest või mitmest sõltumatust muutujast. Arvutieelsel ajastul oli selle kasutamine üsna keeruline, eriti kui tegemist oli suure andmemahuga. Täna, olles õppinud Excelis regressiooni koostama, saate keerukaid statistilisi probleeme lahendada vaid paari minutiga. Allpool on konkreetseid näiteid majandusvaldkonnast.

Regressiooni tüübid

Mõiste ise võeti matemaatikas kasutusele 1886. aastal. Regressioon toimub:

  • lineaarne;
  • paraboolne;
  • võimsus;
  • eksponentsiaalne;
  • hüperboolne;
  • demonstratiivne;
  • logaritmiline.

Näide 1

Mõelge probleemile, kuidas määrata pensionile jäänud meeskonnaliikmete arvu sõltuvust 6 tööstusettevõtte keskmisest palgast.

Ülesanne. Kuue ettevõtte juures analüüsisime keskmist kuupalka ja tõttu lahkunud töötajate arvu oma tahtmine. Tabeli kujul on meil:

Lahkunud inimeste arv

Palk

30 000 rubla

35 000 rubla

40 000 rubla

45 000 rubla

50 000 rubla

55 000 rubla

60 000 rubla

Ülesandeks pensionile jäänud töötajate arvu sõltuvuse määramiseks 6 ettevõtte keskmisest palgast on regressioonimudel valemiga Y = a 0 + a 1 x 1 +…+a k x k , kus x i on mõjutegurid. , a i on regressioonikoefitsiendid, a k on tegurite arv.

Selle ülesande puhul on Y lahkunud töötajate näitaja ja mõjuteguriks palk, mida tähistame X-ga.

Arvutustabeli "Excel" võimaluste kasutamine

Exceli regressioonianalüüsile peab eelnema sisseehitatud funktsioonide rakendamine saadaolevatele tabeliandmetele. Nendel eesmärkidel on siiski parem kasutada väga kasulikku lisandmoodulit "Analysis Toolkit". Selle aktiveerimiseks vajate:

  • minge vahekaardilt "Fail" jaotisesse "Valikud";
  • avanevas aknas valige rida "Lisandmoodulid";
  • klõpsake rea "Haldamine" allosas asuvat nuppu "Mine";
  • märkige ruut nimetuse "Analüüsipakett" kõrval ja kinnitage oma toimingud, klõpsates "OK".

Kui kõik on õigesti tehtud, kuvatakse Exceli töölehe kohal vahekaardi Andmed paremas servas soovitud nupp.

Excelis

Nüüd, kui meil on käepärast kõik ökonomeetriliste arvutuste tegemiseks vajalikud virtuaalsed tööriistad, saame asuda oma probleemi lahendama. Selle jaoks:

  • klõpsake nuppu "Andmete analüüs";
  • avanevas aknas klõpsake nuppu "Regressioon";
  • Sisestage ilmuvale vahekaardile Y (töölt lahkunud töötajate arv) ja X (nende palgad) väärtuste vahemik;
  • Kinnitame oma toimingud, vajutades nuppu "Ok".

Selle tulemusena täidab programm regressioonanalüüsi andmetega tabeli uue lehe automaatselt. Märge! Excelil on võimalik selleks eelistatud asukoht käsitsi määrata. Näiteks võib see olla sama leht, kus on Y ja X väärtused, või isegi Uus raamat, mis on spetsiaalselt loodud selliste andmete salvestamiseks.

R-ruudu regressioonitulemuste analüüs

Excelis näevad vaadeldava näite andmete töötlemisel saadud andmed välja järgmised:

Kõigepealt peaksite pöörama tähelepanu R-ruudu väärtusele. See on määramiskoefitsient. Selles näites on R-ruut = 0,755 (75,5%), st mudeli arvutatud parameetrid selgitavad vaadeldavate parameetrite vahelist seost 75,5%. Mida suurem on määramiskoefitsiendi väärtus, seda sobivam on valitud mudel konkreetse ülesande jaoks. Arvatakse, et see kirjeldab õigesti tegelikku olukorda R-ruudu väärtusega üle 0,8. Kui R-ruut<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Suhtarvude analüüs

Arv 64.1428 näitab, milline on Y väärtus, kui kõik meie vaadeldava mudeli muutujad xi on seatud nulli. Teisisõnu võib väita, et analüüsitava parameetri väärtust mõjutavad ka muud tegurid, mida konkreetses mudelis ei kirjeldata.

Järgmine koefitsient -0,16285, mis asub lahtris B18, näitab muutuja X mõju osakaalu Y-le. See tähendab, et töötajate keskmine kuupalk vaadeldava mudeli raames mõjutab loobujate arvu kaaluga -0,16285, s.o. selle mõju aste üldse väike. Märk "-" näitab, et koefitsiendil on negatiivne väärtus. See on ilmne, sest kõik teavad, et mida kõrgem on palk ettevõttes, seda vähem avaldatakse soovi tööleping lõpetada või töölt lahkuda.

Mitmekordne regressioon

See termin viitab ühendusvõrrandile mitme sõltumatu muutujaga kujul:

y \u003d f (x 1 + x 2 + ... x m) + ε, kus y on efektiivne tunnus (sõltuv muutuja) ja x 1 , x 2 , ... x m on faktoritegurid (sõltumatud muutujad).

Parameetri hinnang

Mitmekordne regressioon (MR) viiakse läbi vähimruutude meetodil (OLS). Lineaarvõrrandite kujul Y = a + b 1 x 1 +…+b m x m + ε konstrueerime normaalvõrrandite süsteemi (vt allpool)

Meetodi põhimõtte mõistmiseks kaaluge kahefaktorilist juhtumit. Siis on meil valemiga kirjeldatud olukord

Siit saame:

kus σ on indeksis kajastatud vastava tunnuse dispersioon.

LSM on rakendatav MP võrrandile standardiseeritaval skaalal. Sel juhul saame võrrandi:

kus t y , t x 1, … t xm on standardiseeritud muutujad, mille keskmised väärtused on 0; β i on standardsed regressioonikoefitsiendid ja standardhälve on 1.

Pange tähele, et kõik β i on antud juhul normaliseeritud ja tsentraliseeritud, seega peetakse nende omavahelist võrdlemist õigeks ja lubatavaks. Lisaks on tavaks filtreerida välja tegurid, jättes kõrvale need, mille βi väärtus on väikseim.

Ülesanne lineaarse regressiooni võrrandi kasutamisel

Oletame, et on olemas tabel konkreetse toote N hinnadünaamika kohta viimase 8 kuu jooksul. On vaja teha otsus selle partii ostmise otstarbekuse kohta hinnaga 1850 rubla / t.

kuu number

kuu nimi

kauba hind N

1750 rubla tonni kohta

1755 rubla tonni kohta

1767 rubla tonni kohta

1760 rubla tonni kohta

1770 rubla tonni kohta

1790 rubla tonni kohta

1810 rubla tonni kohta

1840 rubla tonni kohta

Selle probleemi lahendamiseks Exceli tabelis tuleb kasutada ülaltoodud näitest juba tuntud andmeanalüüsi tööriista. Järgmisena valige jaotis "Regressioon" ja määrake parameetrid. Tuleb meeles pidada, et väljale "Sisestusintervall Y" tuleb sisestada sõltuva muutuja väärtuste vahemik (antud juhul toote hind teatud kuudel aastas) ja väljale "Sisend". intervall X" - sõltumatu muutuja (kuu number). Kinnitage toiming, klõpsates "OK". Uuel lehel (kui nii oli märgitud) saame andmed regressiooniks.

Nende põhjal koostame lineaarvõrrandi kujul y=ax+b, kus parameetrid a ja b on kuu numbri nimetusega rea ​​koefitsiendid ja koefitsiendid ning rea “Y-ristmik” leht regressioonanalüüsi tulemustega. Seega on ülesande 3 lineaarse regressiooni võrrand (LE) kirjutatud järgmiselt:

Toote hind N = 11.714* kuu number + 1727.54.

või algebralises tähistuses

y = 11,714 x + 1727,54

Tulemuste analüüs

Otsustamaks, kas saadud võrrand on piisav lineaarne regressioon, kasutatakse mitmekordseid korrelatsioonikordajaid (MCC) ja määramiskoefitsiente, samuti Fisheri testi ja Studenti testi. Regressioonitulemustega Exceli tabelis kuvatakse need vastavalt mitme R, R-ruudu, F-statistika ja t-statistika nime all.

KMC R võimaldab hinnata sõltumatute ja sõltuvate muutujate vahelise tõenäosusliku seose tihedust. Selle kõrge väärtus näitab üsna tugevat seost muutujate "Kuu arv" ja "Kauba hind N rublades 1 tonni kohta" vahel. Selle suhte olemus jääb aga teadmata.

Determinatsioonikordaja R 2 (RI) ruut on summaarse hajuvuse osakaalu arvnäitaja ja näitab hajumist, millise katseandmete osa, s.o. sõltuva muutuja väärtused vastavad lineaarse regressiooni võrrandile. Vaadeldavas ülesandes on see väärtus 84,8%, st statistilisi andmeid kirjeldab saadud SD suure täpsusega.

F-statistikat, mida nimetatakse ka Fisheri testiks, kasutatakse lineaarse seose olulisuse hindamiseks, lükates ümber või kinnitades selle olemasolu hüpoteesi.

(Õpilase kriteerium) aitab hinnata lineaarse seose tundmatu või vaba liikmega koefitsiendi olulisust. Kui t-kriteeriumi väärtus > t cr, siis hüpotees vaba liikme ebaolulisusest lineaarvõrrand tagasi lükatud.

Vaadeldavas vabaliikme ülesandes saadi Exceli tööriistu kasutades, et t = 169,20903 ja p = 2,89E-12, st meil on null tõenäosus, et õige hüpotees vabaliikme ebaolulisuse kohta kehtib. tagasi lükata. Koefitsiendi jaoks tundmatu t = 5,79405 ja p = 0,001158 korral. Teisisõnu, tõenäosus, et õige hüpotees tundmatu koefitsiendi ebaolulisuse kohta lükatakse ümber, on 0,12%.

Seega võib väita, et saadud lineaarse regressiooni võrrand on adekvaatne.

Aktsiapaketi ostmise otstarbekuse probleem

Excelis tehakse mitu regressiooni, kasutades sama andmeanalüüsi tööriista. Mõelge konkreetsele rakendatud probleemile.

NNN-i juhtkond peab tegema otsuse MMM SA 20% osaluse ostmise otstarbekuse kohta. Paketi (JV) maksumus on 70 miljonit USA dollarit. NNN-i spetsialistid kogusid andmeid sarnaste tehingute kohta. Aktsiapaketi väärtust otsustati hinnata selliste parameetrite järgi, väljendatuna miljonites USA dollarites:

  • võlgnevused (VK);
  • maht aastakäive(VO);
  • saadaolevad arved (VD);
  • põhivara maksumus (SOF).

Lisaks kasutatakse parameetrit ettevõtte palgavõlgnevused (V3 P) tuhandetes USA dollarites.

Lahendus Exceli tabeli abil

Kõigepealt peate looma algandmete tabeli. See näeb välja selline:

  • kutsuge aken "Andmete analüüs";
  • valige jaotis "Regressioon";
  • sisestage lahtrisse "Sisestusintervall Y" veerust G sõltuvate muutujate väärtuste vahemik;
  • klõpsake aknast "Sisestusintervall X" paremal asuval punase noolega ikooni ja valige lehe veergudest B, C, D, F kõigi väärtuste vahemik.

Valige "Uus tööleht" ja klõpsake "OK".

Hankige antud probleemi regressioonianalüüs.

Tulemuste uurimine ja järeldused

"Kogume" ülaltoodud Exceli tabelilehel esitatud ümardatud andmetest regressioonivõrrandi:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Tuttavamas matemaatiline vorm selle võib kirjutada järgmiselt:

y = 0,103 * x 1 + 0,541 * x 2 - 0,031 * x 3 + 0,405 * x 4 + 0,691 * x 5 - 265,844

Andmed JSC "MMM" kohta on esitatud tabelis:

Asendades need regressioonivõrrandisse, saavad nad arvuks 64,72 miljonit USA dollarit. See tähendab, et JSC MMM aktsiaid ei tohiks osta, kuna nende väärtus 70 miljonit USA dollarit on pigem ülehinnatud.

Nagu näha, võimaldas Exceli tabeli ja regressioonivõrrandi kasutamine teha teadliku otsuse väga konkreetse tehingu teostatavuse osas.

Nüüd teate, mis on regressioon. Eespool käsitletud Exceli näited aitavad teil lahendada ökonomeetria valdkonna praktilisi probleeme.

Küsimused:

4. Mitmekordse regressiooni lineaarse mudeli parameetrite hindamine.

5. Mitmekordse lineaarse regressiooni kvaliteedi hindamine.

6. Analüüs ja prognoosimine mitmefaktoriliste mudelite alusel.

Mitmekordne regressioon on paaripõhise regressiooni üldistus. Seda kasutatakse seletatava (sõltuva) muutuja Y ja seletavate (sõltumatute) muutujate X 1 ,X 2 ,…,X k vahelise seose kirjeldamiseks. Mitmekordne regressioon võib olla kas lineaarne või mittelineaarne, kuid lineaarne mitmikregressioon on majandusteaduses kõige laialdasemalt kasutatav.

teoreetiline lineaarne mudel mitmekordne regressioon näeb välja selline:

vastava valimi regressiooni tähistatakse järgmiselt:

Nagu paarisregressiooni puhul, peab juhuslik liige ε vastama regressioonanalüüsi põhieeldustele. Seejärel saadakse LSM-i abil teoreetiliste regressiooniparameetrite parimad erapooletud ja tõhusad hinnangud. Lisaks peavad muutujad Х 1 ,Х 2 ,…,Х k olema omavahel korreleerimata (lineaarselt sõltumatud). LSM-i alusel saadud regressioonikordajate (2) hindamise valemite kirjutamiseks kasutame järgmist tähistust:

Siis saame kirjutada vektormaatriksi kujul teoreetiline mudel:

ja selektiivne regressioon

OLS toob kaasa järgmise valemi koefitsientide vektori hindamiseks valimi regressioon:

(3)

Hinnata mitut lineaarset regressioonikordajat kahe sõltumatu muutujaga , saame lahendada võrrandisüsteemi:

(4)

Nagu paaris lineaarse regressiooni puhul, arvutatakse mitmekordse regressiooni korral regressiooni standardviga S:

(5)

ja regressioonikordajate standardvead:

(6)

koefitsientide olulisust kontrollitakse t-testi abil.

millel on Studenti jaotus vabadusastmete arvuga v= n-k-1.

Regressiooni kvaliteedi hindamiseks kasutatakse määramiskoefitsienti (indeksit):

, (8)

mida lähemal 1-le, seda kõrgem on regressiooni kvaliteet.

Determinantkoefitsiendi olulisuse kontrollimiseks kasutatakse Fisheri kriteeriumi ehk F-statistikat.



(9)

Koos v1=k, v2=n-k-1 vabadusastet.

Mitmemõõtmelise regressiooni korral suurendab täiendavate selgitavate muutujate lisamine määramiskoefitsienti. Sellise kasvu kompenseerimiseks võetakse kasutusele korrigeeritud (või normaliseeritud) määramiskoefitsient:

(10)

Kui uue muutuja lisamisega seletatava regressiooni osakaalu kasv on väike, siis võib see väheneda. Seega on uue muutuja lisamine sobimatu.

Näide 4:

Mõeldagu ettevõtte kasumi sõltuvusele uute seadmete ja masinate maksumusest ning töötajate oskuste parandamise kuludest. Kogutud statistilised andmed 6 sama tüüpi ettevõtte kohta. Andmed miljonites den. ühikut on toodud tabelis 1.

Tabel 1

Joonistage kahesuunaline lineaarne regressioon ja hinnata selle tähtsust. Tutvustame tähistust:

Transponeerime maatriksi X:

Selle maatriksi ümberpööramine:

Seega saab kasumi sõltuvust uute seadmete ja masinate maksumusest ning töötajate oskuste parandamise kuludest kirjeldada järgmise regressiooniga:

Kasutades valemit (5), kus k=2, arvutame regressiooni standardvea S=0,636.

Arvutame regressioonikordajate standardvead valemi (6) abil:

Sarnaselt:

Kontrollime regressioonikordajate a 1 , a 2 olulisust. arvutada t arvut.

Valime olulisuse taseme, vabadusastmete arvu

tähendab koefitsienti a 1 märkimisväärne.

Hindame koefitsiendi a 2 olulisust:

Koefitsient a 2 tähtsusetu.

Arvutame determinatsioonikoefitsiendi valemi (7) järgi . Ettevõtte kasum sõltub 96% ulatuses uute seadmete ja masinate ning täiendõppe maksumusest 4% muudest ja juhuslikest teguritest. Kontrollime determinatsioonikoefitsiendi olulisust. Arvuta F arvutus:

siis. determinatsioonikordaja on oluline, regressioonivõrrand on oluline.

Mitmemõõtmelisel regressioonil põhinevas analüüsis on suur tähtsus tegurite mõju võrdlemisel sõltuvale näitajale y. Regressioonikoefitsiente selleks ei kasutata, kuna mõõtühikutes on erinevusi ja erineval määral kõikumised. Nendest puudustest on vaba elastsuskoefitsiendid järgmised:

Elastsus näitab, mitu protsenti sõltuv näitaja y keskmiselt muutub, kui muutuja muutub 1%, eeldusel, et teiste muutujate väärtused jäävad muutumatuks. Mida suurem , seda suurem on vastava muutuja mõju. Nagu paarisregressiooni puhul, eristatakse mitmekordse regressiooni puhul punktiprognoosi ja intervallprognoosi. Punktiprognoos (arv) saadakse sõltumatute muutujate prognoositud väärtuste asendamisel mitmekordse regressiooni võrrandiga. Tähistage:

(12)

sõltumatute muutujate ennustusväärtuste vektor, seejärel punktprognoos

standardviga ennustus mitmekordse regressiooni korral määratletakse järgmiselt:

(15)

Olulisuse taseme α valime Studenti jaotustabeli järgi. Olulisuse taseme α ja vabadusastmete arvu ν = n-k-1 jaoks leiame t cr. Siis langeb y p tegelik väärtus tõenäosusega 1- α intervalli:


5. teema:

Aegrida.

Küsimused:

4. Aegridade põhimõisted.

5. Peamine arengusuund on trend.

6. Lisandmudeli ehitamine.

Aegrida esindavad mis tahes indikaatori väärtuste kogumit mitmel järjestikusel hetkel või ajavahemikul.

Ajamomenti (või perioodi) tähistatakse t-ga ja indikaatori väärtust ajahetkel tähistatakse y-ga (t) ja nn. rea tasandil .

Iga aegrea tase moodustub suure hulga tegurite mõjul, mille saab jagada kolme rühma:

Pikaajalised püsivad tegurid, millel on otsustav mõju uuritavale nähtusele ja mis moodustavad seeria põhitrendi - trendi T(t).

Lühiajalised perioodilised tegurid, mis moodustavad S(t) seeria hooajalisi kõikumisi.

Juhuslikud tegurid, mis moodustavad juhuslikud muutused seeria ε(t) tasemetes.

Lisandmudel aegrida on mudel, milles seeria iga taset esindab trendi, hooajalise ja hooajalise summa summa juhuslik komponent:

Multiplikatiivne mudel on mudel, milles seeria iga tase on loetletud komponentide tulemus:

Ühe mudeli valik põhineb hooajaliste kõikumiste struktuuri analüüsil. Kui võnkeamplituud on ligikaudu konstantne, siis koostatakse liitmudel. Kui amplituud suureneb, siis multiplikatiivne mudel.

Ökonomeetrilise analüüsi põhiülesanne on tuvastada iga loetletud komponent.

Peamine arengusuund (trend) nimetatakse seeriate tasemete sujuvaks ja stabiilseks muutuseks aja jooksul, mis on vaba juhuslikest ja hooajalistest kõikumistest.

Peamiste arengusuundade väljaselgitamise ülesanne on nn aegridade joondamine .

Aegridade joondamise meetodid hõlmavad järgmist:

1) intervallide suurendamise meetod,

2) meetod liikuv keskmine,

3) analüütiline joondus.

1) Ajavahemikke, millele seeria tasemed viitavad, suurendatakse. Seejärel liidetakse seeria tasemed suurendatud intervallidega. Juhuslikest põhjustest tingitud tasemete kõikumised tühistavad üksteist. Üldine trend tuleb selgemalt välja.

2) Seeria esimeste tasemete arvu määramiseks keskmine väärtus. Seejärel arvutatakse seeria sama arvu tasemete põhjal keskmine, alates teisest tasemest jne. keskmine väärtus libiseb mööda dünaamika seeriat, edenedes 1 perioodi võrra (ajapunkt). Seeria tasemete arv, mille kohta keskmine arvutatakse, võib olla paaris või paaritu. Paaritu libiseva keskmise saamiseks vaadake libisemisperioodi keskpaika. Ühtlase perioodi puhul ei võrrelda keskmise väärtuse leidmist t definitsiooniga, vaid rakendatakse tsentreerimisprotseduuri, s.t. arvutada kahe järjestikuse liikuva keskmise keskmine.

3) Ehitus analüütiline funktsioon iseloomustades seeria taseme sõltuvust ajast. Trendide loomiseks kasutatakse järgmisi funktsioone:

Trendiparameetrid määratakse vähimruutude meetodil. Parima funktsiooni valik toimub koefitsiendi R 2 alusel.

Ehitame näite abil lisamudeli.

Näide 7:

Teatud piirkonna elektritarbimise mahu kohta on kvartaliandmed 4 aasta kohta. Andmed miljonites kW tabelis 1.

Tabel 1

Ehitage aegrea mudel.

Selles näites käsitleme kvartaliarvu sõltumatu muutujana ja kvartali elektritarbimist sõltuva muutujana y(t).

Hajuvusgraafikult on näha, et trend (trend) on lineaarne. Näete ka sama amplituudiga hooajalisi kõikumisi (periood = 4), seega koostame liitmudeli.

Mudeli koostamine hõlmab järgmisi samme:

1. Joondame algsed seeriad 4 veerandi libiseva keskmise abil ja teostame tsentreerimise:

1.1. Summeerime seeria tasemed järjestikku iga 4 kvartali kohta 1 ajapunkti nihkega.

1.2. Jagades saadud summad 4-ga, leiame liikuvad keskmised.

1.3. Viime need väärtused kooskõlla tegelike ajapunktidega, mille jaoks leiame kahe järjestikuse libiseva keskmise keskmise väärtuse – tsentreeritud libiseva keskmise.

2. Arvutage hooajaline kõikumine. Hooajaline kõikumine (t) = y(t) – tsentreeritud liikuv keskmine. Ehitame laua 2.

tabel 2

Läbi ploki numbri t Elektritarbimine Y(t) 4 kvartali libisev keskmine Tsentreeritud liikuv keskmine Hooajaliste variatsioonide hinnang
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. Tabeli 3 sesoonse kõikumise alusel arvutatakse hooajaline komponent.

Näitajad aasta Kvartali number aastal I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Kokku 1,8 -5,875 -3,825 8,125 Summa
Keskmine 0,6 -1,958 -1,275 2,708 0,075
Hooajaline komponent 0,581 -1,977 -1,294 2,690

4. Likvideerige hooajaline komponent sarja algtasemetelt:

Järeldus:

Lisandmudel seletab 98,4% üldine varieeruvus algse aegrea tasemed.

Klõpsates nupul "Laadi arhiiv alla", laadite vajaliku faili tasuta alla.
Enne allalaadimist antud fail mäleta neid häid esseesid, kontrolltöid, kursusetöid, teesid, artiklid ja muud dokumendid, mis asuvad teie arvutis taotlemata. See on teie töö, see peaks osalema ühiskonna arengus ja tooma inimestele. Otsige üles need tööd ja saatke need teadmistebaasi.
Oleme teile väga tänulikud meie ja kõik üliõpilased, magistrandid, noored teadlased, kes kasutavad teadmistebaasi oma õpingutes ja töös.

Dokumendiga arhiivi allalaadimiseks sisestage allolevale väljale viiekohaline number ja klõpsake nuppu "Laadi arhiiv alla"

###### ## ## ###### ######
## ### ### ## ##
## #### ## ##### ##
## ## ## ## ## ##
## ## ###### ## ## ## ## ##
#### ## ###### #### ####

Sisestage ülaltoodud number:

Sarnased dokumendid

    Ehitamise ja adekvaatsuse testimise alused majandusmudelid mitmekordne regressioon, nende täpsustamise probleem ja vigade tagajärjed. Mitmekordse regressiooni metoodiline ja informatiivne tugi. Numbriline näide mitu regressioonimudelit.

    kursusetöö, lisatud 10.02.2014

    Mitme regressiooni mudeli kontseptsioon. Vähimruutude meetodi olemus, mida kasutatakse lineaarse mitmekordse regressiooni võrrandi parameetrite määramiseks. Sobivuse kvaliteedi hindamine regressioonivõrrand andmetele. Määramiskoefitsient.

    kursusetöö, lisatud 22.01.2015

    Mitme lineaarse regressiooni mudeli koostamine vastavalt etteantud parameetritele. Mudeli kvaliteedi hindamine determinatsioonikoefitsientide ja mitmikkorrelatsiooni järgi. Regressioonivõrrandi olulisuse määramine Fisheri F-testi ja Studenti t-testi põhjal.

    test, lisatud 12.01.2013

    Mitmekordse regressioonivõrrandi koostamine lineaarsel kujul koos täiskomplekt tegurid, informatiivsete tegurite valik. Regressioonivõrrandi olulisuse kontrollimine Fisheri testiga ja regressiooniparameetrite statistilise olulisuse kontrollimine Studenti testiga.

    laboritööd, lisatud 17.10.2009

    Mitmekordse regressiooni klassikalise lineaarse mudeli kirjeldus. Paaritud korrelatsioonikoefitsientide maatriksi analüüs multikollineaarsuse olemasolu kohta. Paaritud regressioonimudeli hindamine kõige olulisema teguriga. Prognoosivahemiku graafiline konstruktsioon.

    kursusetöö, lisatud 17.01.2016

    Peterburis ehitatavate majade korterite hinda kujundavad tegurid. Algmuutujate paariskorrelatsioonikordajate maatriksi koostamine. Heteroskedastilisuse mitmekordse regressiooni võrrandi vigade testimine. Gelfeld-Quandti test.

    test, lisatud 14.05.2015

    Muutuja X1 jaotuse hindamine. Muutujate Y ja X1 vahelise seose modelleerimine lineaarfunktsiooni ja mitmekordse lineaarse regressiooni meetodi abil. Ehitatud mudelite kvaliteedi võrdlus. Punktiprognoosi koostamine etteantud väärtustele.

    kursusetöö, lisatud 24.06.2015

Tere päevast, kallid lugejad.
Varasemates artiklites näitasin praktiliste näidete abil, kuidas lahendada klassifitseerimisülesandeid (krediidiskooringu probleem) ja tekstiinfo analüüsi põhitõdesid (passiprobleem). Täna tahaksin puudutada veel ühte probleemide klassi, nimelt regressiooni taastumist. Selle klassi ülesandeid kasutatakse tavaliselt prognoosimisel.
Näitena prognoosimisprobleemi lahendamiseks võtsin energiatõhususe andmestiku suurimast UCI hoidlast. Traditsiooniliselt kasutame Pythonit koos pandade ja scikit-learn analüütiliste pakettidega tööriistadena.

Andmekogumi kirjeldus ja probleemipüstitus

Antakse andmekogum, mis kirjeldab järgmisi ruumi atribuute:

See sisaldab ruumi omadusi, mille põhjal analüüs tehakse, ja - prognoositavaid koormusväärtusi.

Esialgne andmete analüüs

Esiteks laadime oma andmed ja vaatame neid:

Pandadest import read_csv, DataFrame saidilt sklearn.neighbors impordi KNeighborsRegressor saidilt sklearn.linear_model import LinearRegression, LogisticRegression failist sklearn.svm import SVR saidist sklearn.ensemble import RandomForestRegressor = sklearn.Energiatregressor = sklearn.Energiatregressiiv /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Nüüd vaatame, kas mõni atribuut on seotud. Seda saab teha kõigi veergude korrelatsioonikoefitsientide arvutamisega. Kuidas seda teha, kirjeldati eelmises artiklis:

dataset.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1,283986e-17 1,764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3,558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0,000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1,381805e-16 -1,079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0,000000e+00 0.889431 0.895785
X6 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 1.000000 0,000000e+00 0,000000e+00 -0.002587 0.014290
X7 1,283986e-17 1.318356e-16 -7.969726e-19 -1,381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1,764620e-17 -3,558613e-16 0,000000e+00 -1,079129e-16 0,000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Nagu näete meie maatriksist, on järgmised veerud üksteisega korrelatsioonis (korrelatsioonikordaja väärtus on suurem kui 95%):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
Nüüd valime, millised meie paaride veerud saame oma valikust eemaldada. Selleks valime igas paaris veerud, millel on suurem mõju prognoositud väärtustele Y1 ja Y2 ja jätke need ning kustutage ülejäänud.
Nagu näete, on korrelatsioonikordajatega maatriksid sisse lülitatud y1 ,y2 rohkem väärtust renderdama X2 ja X5 kui X1 ja X4, et saaksime viimased veerud eemaldada.

Andmestik = dataset.drop(["X1","X4"], telg=1) dataset.head()
Lisaks on näha, et põllud Y1 ja Y2 omavahel väga tihedalt korrelatsioonis. Kuid kuna peame ennustama mõlemat väärtust, jätame need "nagu on".

Mudeli valik

Eraldage prognoosiväärtused meie proovist:

Trg = andmestik[["Y1","Y2"]] trn = andmestik.drop(["Y1", "Y2"], telg=1)
Pärast andmete töötlemist saate jätkata mudeli koostamist. Mudeli koostamiseks kasutame järgmisi meetodeid:

Nende meetodite teooriat saab lugeda K. V. Vorontsovi masinõppe loengute käigus.
Hindame määramiskoefitsiendi abil ( R-ruut). See koefitsient on määratletud järgmiselt:

Kus on sõltuva muutuja tingimuslik dispersioon juures teguri järgi X.
Koefitsient võtab intervalli väärtuse ja mida lähemal see on 1-le, seda tugevam on sõltuvus.
Noh, nüüd saate minna otse mudeli ehitamise ja mudeli valimise juurde. Paneme kõik mudelid edasise analüüsi hõlbustamiseks ühte loendisse:

Mudelid =
Nii et mudelid on valmis, nüüd jagame oma algandmed kaheks alamvalimiks: test ja hariv. Need, kes mu varasemaid artikleid lugesid, teavad, et seda saab teha scikit-learn paketi funktsiooni train_test_split () abil:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0,4)
Nüüd, kuna peame ennustama 2 parameetrit, peame koostama neist igaühe jaoks regressiooni. Lisaks saate täiendavaks analüüsiks salvestada saadud tulemused ajutiselt DataFrame. Saate seda teha järgmiselt:

#loo ajutisi struktuure TestModels = DataFrame() tmp = () #iga mudeli jaoks mudelite loendist: #hankige mudeli nimi m = str(mudel) tmp["Mudel"] = m[:m.index( "( ")] #i tulemuste komplekti iga veeru jaoks xrange(Ytrn.shape): #mudeli treenimine model.fit(Xtrn, Ytrn[:,i]) #arvuta määramiskoefitsient tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #kirjuta andmed ja lõplik DataFrame TestModels = TestModels.append() #make index mudeli nime järgi TestModels.set_index ("mudel", inplace= true)
Nagu ülaltoodud koodist näha, kasutatakse koefitsiendi arvutamiseks funktsiooni r2_score().
Niisiis, andmed analüüsiks on vastu võetud. Koostame nüüd graafikud ja vaatame, milline mudel näitas parimat tulemust:

Joonis, teljed = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="(!LANG:R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Tulemuste analüüs ja järeldused

Ülaltoodud graafikute põhjal võime järeldada, et meetod tuli ülesandega paremini toime kui teised. Juhuslik mets(juhuslik mets). Selle määramiskoefitsiendid on mõlema muutuja puhul teistest kõrgemad:
Edasise analüüsi jaoks õpetame oma mudelit ümber:

Mudel = mudelidmudel.fit(Xtrn, Ytrn)
Lähemal uurimisel võib tekkida küsimus, miks eelmine kord sõltuv valim jagati Ytrn muutujatele (veergude kaupa) ja nüüd me seda ei tee.
Fakt on see, et mõned meetodid, nagu RandomForestRegressor, võib töötada mitme ennustava muutujaga, samas kui teised (näiteks SVR) saab töötada ainult ühe muutujaga. Seetõttu kasutasime eelmises koolituses veergude kaupa partitsiooni, et vältida vigu mõne mudeli loomise protsessis.
Mudeli valimine on muidugi hea, kuid tore oleks ka teavet selle kohta, kuidas iga tegur ennustatavat väärtust mõjutab. Selleks on mudelil omadus funktsiooni_olulisus_.
Selle abil näete lõppmudelites iga teguri kaalu:

Model.feature_importances_
array([ 0,40717901, 0,11394948, 0,34984766, 0,00751686, 0,09158358,
0.02992342])

Meie puhul on näha, et kütte- ja jahutuskoormust mõjutavad enim kogukõrgus ja pindala. Nende kogupanus ennustusmudelisse on umbes 72%.
Samuti tuleb märkida, et ülaltoodud skeemi järgi näete iga teguri mõju eraldi küttele ja eraldi jahutamisele, kuid kuna need tegurid on üksteisega väga tihedas korrelatsioonis (), tegime mõlema kohta üldise järelduse. neid, mis oli ülalpool kirjutatud.

Järeldus

Artiklis püüdsin näidata peamisi etappe regressioonianalüüs andmed Pythoni ja analüütiliste pakettidega pandad ja scikit-õppida.
Tuleb märkida, et andmekogum valiti spetsiaalselt selliselt, et see oleks vormistatud ja esmane töötlemine sisendandmed oleksid minimaalsed. Minu arvates on artikkel kasulik nii neile, kes alles alustavad oma teekonda andmeanalüüsis, kui ka neile, kellel on hea teoreetiline baas, kuid kes valivad tööks tööriistad.