Biografije Karakteristike Analiza

Primjer višestruke linearne regresije. Rješenje korištenjem Excel proračunske tablice

Imam veliku policu za knjige koja uključuje mnogo knjiga podijeljenih u mnogo varijanti. Na gornjoj polici nalaze se vjerske knjige kao što su Fiqh knjige, Tauhid knjige, Tasawuf knjige, Nahwu knjige, itd. Uredno su poredani u više redova, a neki od njih su uredno poredani prema piscima. Na drugoj razini su moje marljive knjige poput gramatike, knjige za pisanje, knjige za TOEFL itd. Oni su raspoređeni na temelju veličina. Na sljedećoj polici je mnogo vrsta znanstveni i obrazovane knjige; na primjer, filozofije, politike, povijesti itd. Za to postoje tri razine. Na kraju, na dnu moje police s knjigama nalaze se rječnici, arapski rječnici i engleski rječnici, kao i indonezijski rječnici. Doista, na mojoj velikoj polici za knjige postoji šest razina i poredane su u mnogo redova. Prva razina uključuje vjerske knjige, druga razina uključuje moje studiozne knjige, razina koja ima tri razine uključuje mnoge vrste znanstvenih i stručnih knjiga, a posljednja razina uključuje rječnike. Ukratko, volim svoju policu za knjige.

Od specifičnog do općeg reda

Vještine potrebne za pisanje kreću se od pravljenja odgovarajućih grafičkih oznaka, preko korištenja resursa odabranog jezika, do predviđanja reakcija namjeravanih čitatelja. Prvo područje vještina uključuje usvajanje sustava pisma, koji može biti abecedni (kao u europskim jezicima) ili neabecedni (kao u mnogim azijskim jezicima). Drugo područje vještine zahtijeva odabir odgovarajuće gramatike i vokabulara kako bi se oblikovale prihvatljive rečenice, a zatim ih rasporedio u odlomke. Treće, pisanje uključuje razmišljanje o svrsi teksta koji treba sastaviti io njegovim mogućim učincima na namjeravanu publiku. Jedan važan aspekt ove posljednje značajke je odabir prikladnog stila. Za razliku od govora, pisanje je složen sociokognitivni proces koji se mora steći godinama obuke ili školovanja. (Swales i Feak, 1994., str. 34.)

Redoslijed od općeg do posebnog

"Radeći skraćeno radno vrijeme kao blagajnica u Piggly Wigglyju dalo mi je izvrsnu priliku da promatram ljudsko ponašanje. Ponekad razmišljam o kupcima kao o bijelim štakorima u laboratorijskom eksperimentu, a o prolazima kao o labirintu koji je dizajnirao psiholog. Većina štakori--mušterije, mislim--slijede rutinski obrazac, šetaju gore-dolje po prolazima, provjeravaju kroz moj padobran, a zatim bježe kroz izlazni otvor. abnormalna mušterija: amnezičar, super kupac i zabušavac.. ."

Mnogo je čimbenika koji pridonose uspjehu studenata na fakultetu. Prvi čimbenik je imati cilj na umu prije uspostavljanja studija. Cilj može biti općeniti poput želje za boljim obrazovanjem za budućnost. Konkretniji cilj bio bi steći vjerodajnicu za podučavanje. Drugi faktor povezan s uspjehom učenika je samomotivacija i predanost. Student koji želi uspjeti i radi na ostvarenju te želje lako će postići uspjeh kao student. Treći čimbenik povezan s uspjehom studenata je korištenje usluga fakulteta. Većina studenata početnika ne shvaćaju koliko može biti važno posjetiti savjetnika ili se posavjetovati s knjižničarem ili službenikom za financijsku pomoć.

Tri su razloga zašto je Kanada jedan od njih najbolji zemalja u svijetu. Prvo, Kanada ima izvrsnu zdravstvenu uslugu. Svi Kanađani imaju pristup medicinskim uslugama po razumnoj cijeni. Drugo, Kanada ima visok standard obrazovanja. Studenti se uče da budu dobro obučeni učitelji i potiču se da nastave studirati na sveučilištu. Konačno, kanadski su gradovi čisti i učinkovito organizirani. Kanadski gradovi imaju mnogo parkova i puno prostora za život ljudi. Kao rezultat toga, Kanada je poželjno mjesto za život.

York je napadnuto od strane šest njemačkih vojnika koji su krenuli na njega s učvršćenim bajunetama. Nacrtao je zrno šestom čovjeku, opalio, a potom i petom. Probijao se niz liniju, i prije nego što je shvatio, prvi je čovjek bio sasvim sam. York ga je ubio jednim hicem.

Dok je gledao po kampusu, koji se gotovo nije promijenio, osjetio je olakšanje onih trenutaka koje je proveo s Nancy. Prisjetio se kako su njih dvoje sjedili uz jezerce, beskrajno čavrljajući dok su hranili ribe i kako su šetali zajedno, izgubljeni u svom svijetu. Da, Nancy je bila jedna od rijetkih prijateljica koje je ikada imao. ... Iznenada ga je ispunila nostalgija kad se prisjetio tog poslijepodneva kad se oprostio od Nancy. Glasno je šmrcnuo dok su mu se oči punile suzama.

Primjeri rješavanja zadataka višestruke regresije

Primjer 1 Regresijska jednadžba, izgrađena na 17 opažanja, ima oblik:

Rasporedite vrijednosti koje nedostaju, kao i izgradite interval pouzdanosti za b 2 s vjerojatnošću od 0,99.

Riješenje. Vrijednosti koje nedostaju određuju se pomoću formula:

Dakle, regresijska jednadžba sa statističkim karakteristikama izgleda ovako:

Interval pouzdanosti za b 2 graditi prema odgovarajućoj formuli. Ovdje je razina značajnosti 0,01, a broj stupnjeva slobode je nstr– 1 = 17 – 3 – 1 = 13, gdje je n= 17 – veličina uzorka, str= 3 je broj faktora u regresijskoj jednadžbi. Odavde

ili . Ovaj interval pouzdanosti pokriva stvarnu vrijednost parametra s vjerojatnošću od 0,99.

Primjer 2 Regresijska jednadžba u standardiziranim varijablama izgleda ovako:

U ovom slučaju, varijacije svih varijabli jednake su sljedećim vrijednostima:

Usporedite faktore prema stupnju utjecaja na rezultirajuću značajku i odredite vrijednosti parcijalnih koeficijenata elastičnosti.

Riješenje. Standardizirane regresijske jednadžbe omogućuju usporedbu faktora prema snazi ​​njihovog utjecaja na rezultat. Pritom, što je veća apsolutna vrijednost koeficijenta standardizirane varijable, to ovaj faktor snažnije utječe na rezultirajuću osobinu. U razmatranoj jednadžbi faktor koji ima najjači utjecaj na rezultat je x 1, koji ima koeficijent 0,82, najslabiji je faktor x 3 s koeficijentom jednakim - 0,43.

U modelu linearne višestruke regresije, generalizirani (prosječni) koeficijent parcijalne elastičnosti određen je izrazom koji uključuje prosječne vrijednosti varijabli i koeficijent pri odgovarajućem faktoru regresijske jednadžbe prirodne skale. U uvjetima problema te količine nisu navedene. Stoga koristimo izraze za varijacije s obzirom na varijable:

Izgledi bj povezan sa standardiziranim koeficijentima β j odgovarajući omjer, koji zamijenimo u formulu za prosječni koeficijent elastičnosti:

.

U ovom slučaju, znak koeficijenta elastičnosti će se podudarati sa znakom β j:

Primjer 3 Na temelju 32 promatranja dobiveni su sljedeći podaci:

Odredite vrijednosti prilagođenog koeficijenta determinacije, parcijalnih koeficijenata elastičnosti i parametra a.

Riješenje. Vrijednost prilagođenog koeficijenta determinacije određena je jednom od formula za njegov izračun:

Parcijalni koeficijenti elastičnosti (prosjek za populaciju) izračunavaju se pomoću odgovarajućih formula:

Budući da se linearna jednadžba višestruke regresije izvodi zamjenom prosječnih vrijednosti svih varijabli u nju, određujemo parametar a:

Primjer 4 Za neke varijable dostupne su sljedeće statistike:

Izradite regresijsku jednadžbu u standardiziranim i prirodnim mjerilima.

Riješenje. Budući da su parovi korelacijskih koeficijenata između varijabli inicijalno poznati, treba započeti konstruiranjem regresijske jednadžbe na standardiziranoj skali. Za to je potrebno riješiti odgovarajući sustav normalnih jednadžbi, koji u slučaju dva faktora ima oblik:

ili, nakon zamjene početnih podataka:

Riješimo ovaj sustav na bilo koji način, dobivamo: β1 = 0,3076, β2 = 0,62.

Napišimo regresijsku jednadžbu na standardiziranoj skali:

Sada prijeđimo na regresijsku jednadžbu prirodne skale, za koju koristimo formule za izračun koeficijenata regresije kroz beta koeficijente i svojstvo pravednosti regresijske jednadžbe za prosječne varijable:

Jednadžba prirodne skale regresije je:

Primjer 5 Prilikom izgradnje linearne višestruke regresije za 48 mjerenja koeficijent determinacije bio je 0,578. Nakon eliminacije faktora x 3, x 7 i x 8 koeficijent determinacije smanjio se na 0,495. Je li odluka o promjeni sastava utjecajnih varijabli na razinama značajnosti 0,1, 0,05 i 0,01 bila opravdana?

Riješenje. Neka - koeficijent determinacije regresijske jednadžbe s početnim skupom faktora, - koeficijent determinacije nakon isključenja tri faktora. Postavljamo hipoteze:

;

Glavna hipoteza sugerira da smanjenje magnitude nije bilo značajno, a odluka da se isključi skupina čimbenika bila je ispravna. Alternativna hipoteza ukazuje na ispravnost odluke o isključenju.

Za testiranje nulte hipoteze koristimo sljedeće statistike:

,

gdje n = 48, str= 10 - početni broj faktora, k= 3 - broj isključenih faktora. Zatim

Usporedimo dobivenu vrijednost s kritičnom F(α ; 3; 39) na razinama 0,1; 0,05 i 0,01:

F(0,1; 3; 37) = 2,238;

F(0,05; 3; 37) = 2,86;

F(0,01; 3; 37) = 4,36.

Na razini α = 0,1 F obl > F cr, nula - hipoteza je odbačena, isključenje ove skupine čimbenika nije opravdano, na razinama 0,05 0,01 nula - hipoteza se ne može odbaciti, a isključivanje čimbenika može se smatrati opravdanim.

Primjer 6. Na temelju tromjesečnih podataka od 2000. do 2004. godine dobivena je jednadžba. Istovremeno, ESS=110,3, RSS=21,4 (ESS – objašnjeni RMSE, RSS – rezidualni RMSE). Jednadžbi su dodane tri lažne varijable, koje odgovaraju prva tri tromjesečja godine, a ESS vrijednost porasla je na 120,2. Postoji li sezonalnost u ovoj jednadžbi?

Riješenje. Ovo je zadatak za provjeru valjanosti uključivanja grupe faktora u jednadžbu višestruke regresije. Tri varijable dodane su izvornoj jednadžbi s tri faktora kako bi predstavile prva tri kvartala godine.

Odredimo koeficijente determinacije jednadžbi. Ukupna standardna devijacija definirana je kao zbroj faktorijela i rezidualne standardne devijacije:

TSS = ESS 1 + RSS 1 = 110,3 + 21,4 = 131,7

Provjeravamo hipoteze. Za testiranje nulte hipoteze koristimo statistiku

Ovdje n= 20 (20 kvartala tijekom pet godina - od 2000. do 2004.), str = 6 (ukupno faktori u regresijskoj jednadžbi nakon uključivanja novih faktora), k= 3 (broj uključenih faktora). Na ovaj način:

Odredimo kritične vrijednosti Fisherove statistike na različitim razinama značajnosti:

Na razinama značajnosti 0,1 i 0,05 F obl> F cr, nula - hipoteza je odbačena u korist alternativne, a sezonalnost u regresiji je opravdana (opravdan je dodatak tri nova faktora), a na razini 0,01 F obl< F cr, i nula – hipoteza se ne može odbaciti; dodavanje novih faktora nije opravdano, sezonalnost u regresiji nije značajna.

Primjer 7 Pri analizi podataka za heteroskedastičnost, cijeli uzorak je podijeljen u tri poduzorka nakon sređivanja prema jednom od faktora. Zatim je na temelju rezultata trosmjerne regresijske analize utvrđeno da je rezidualni SD u prvom poduzorku bio 180, au trećem - 63. Je li prisutnost heteroskedastičnosti potvrđena ako je volumen podataka u svakom poduzorku 20 ?

Riješenje. Izračunajte statistiku za testiranje nulte hipoteze homoskedastičnosti koristeći Goldfeld–Quandtov test:

.

Pronađite kritične vrijednosti Fisherove statistike:

Dakle, na razinama značajnosti od 0,1 i 0,05 F obl> F cr, te se odvija heteroskedastičnost, i to na razini 0,01 F obl< F cr, a hipoteza o homoskedastičnosti se ne može odbaciti.

Primjer 8. Na temelju kvartalnih podataka dobivena je jednadžba višestruke regresije za koju je ESS = 120,32 i RSS = 41,4. Za isti model, regresije su zasebno provedene na temelju sljedećih podataka: 1. tromjesečje 1991. - 1. tromjesečje 1995. i 2. tromjesečje 1995. - 4. tromjesečje 1996. U tim regresijama rezidualni RMSE bio je 22,25 odnosno 12,32. Testirati hipotezu o prisutnosti strukturnih promjena u uzorku.

Riješenje. Problem prisutnosti strukturnih promjena u uzorku rješava se Chow testom.

Hipoteze imaju oblik: , gdje s0, s 1 i s2 su rezidualne standardne devijacije za jednu jednadžbu za cijeli uzorak, odnosno regresijske jednadžbe za dva poduzorka ukupnog uzorka. Glavna hipoteza negira prisutnost strukturnih promjena u uzorku. Za testiranje nulte hipoteze izračunava se statistika ( n = 24; str = 3):

Budući da je F statistika manja od jedan, nula znači da se hipoteza ne može odbaciti za bilo koju razinu značajnosti. Na primjer, za razinu značajnosti od 0,05.

Regresijska analiza je statistička metoda istraživanja koja vam omogućuje da pokažete ovisnost parametra o jednoj ili više neovisnih varijabli. U predračunalnoj eri njegovo je korištenje bilo prilično teško, pogotovo kada se radilo o velikim količinama podataka. Danas, nakon što ste naučili kako izgraditi regresiju u Excelu, možete riješiti složene statističke probleme u samo nekoliko minuta. Ispod su konkretni primjeri iz područja ekonomije.

Vrste regresije

Sam pojam uveden je u matematiku 1886. godine. Regresija se događa:

  • linearni;
  • parabolični;
  • vlast;
  • eksponencijalni;
  • hiperbolički;
  • demonstrativan;
  • logaritamski.

Primjer 1

Razmotrite problem određivanja ovisnosti broja umirovljenih članova tima o prosječnoj plaći u 6 industrijskih poduzeća.

Zadatak. U šest poduzeća analizirali smo prosječnu mjesečnu plaću i broj radnika koji su zbog toga otišli vlastita volja. U tabelarnom obliku imamo:

Broj ljudi koji su otišli

Plaća

30 000 rubalja

35000 rubalja

40 000 rubalja

45000 rubalja

50 000 rubalja

55 000 rubalja

60 000 rubalja

Za problem utvrđivanja ovisnosti broja umirovljenih radnika o prosječnoj plaći u 6 poduzeća regresijski model ima oblik jednadžbe Y = a 0 + a 1 x 1 +…+a k x k , gdje su x i utjecajne varijable , a i su regresijski koeficijenti, a k je broj faktora.

Za ovaj zadatak Y je pokazatelj zaposlenika koji su otišli, a faktor utjecaja je plaća koju označavamo s X.

Korištenje mogućnosti proračunske tablice "Excel"

Regresijskoj analizi u Excelu mora prethoditi primjena ugrađenih funkcija na dostupne tablične podatke. Međutim, za ove svrhe, bolje je koristiti vrlo koristan dodatak "Analysis Toolkit". Za aktivaciju je potrebno:

  • na kartici "Datoteka" idite na odjeljak "Opcije";
  • u prozoru koji se otvori odaberite redak "Dodaci";
  • kliknite gumb "Idi" koji se nalazi na dnu, desno od retka "Upravljanje";
  • potvrdite okvir pored naziva "Analysis Package" i potvrdite svoje radnje klikom na "OK".

Ako je sve ispravno napravljeno, željeni gumb će se pojaviti na desnoj strani kartice Data, koja se nalazi iznad Excel radnog lista.

u Excelu

Sada kada imamo pri ruci sve potrebne virtualne alate za izvođenje ekonometrijskih izračuna, možemo početi rješavati naš problem. Za ovo:

  • kliknite na gumb "Analiza podataka";
  • u prozoru koji se otvori kliknite na gumb "Regresija";
  • u kartici koja se pojavi unesite raspon vrijednosti za Y (broj zaposlenika koji su dali otkaz) i za X (njihove plaće);
  • Svoje radnje potvrđujemo pritiskom na gumb "U redu".

Kao rezultat toga, program će automatski popuniti novi list proračunske tablice podacima regresijske analize. Bilješka! Excel ima mogućnost ručnog postavljanja željene lokacije za tu svrhu. Na primjer, to može biti isti list na kojem su vrijednosti Y i X ili čak nova knjiga, posebno dizajniran za pohranu takvih podataka.

Analiza rezultata regresije za R-kvadrat

U Excelu podaci dobiveni tijekom obrade podataka razmatranog primjera izgledaju ovako:

Prije svega, trebali biste obratiti pozornost na vrijednost R-kvadrata. To je koeficijent determinacije. U ovom primjeru R-kvadrat = 0,755 (75,5%), tj. izračunati parametri modela objašnjavaju odnos između razmatranih parametara za 75,5%. Što je veća vrijednost koeficijenta determinacije, to je odabrani model primjenjiviji za određeni zadatak. Vjeruje se da ispravno opisuje stvarnu situaciju s vrijednošću R-kvadrata iznad 0,8. Ako je R-kvadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza omjera

Broj 64,1428 pokazuje kolika će biti vrijednost Y ako su sve varijable xi u modelu koji razmatramo postavljene na nulu. Drugim riječima, može se tvrditi da na vrijednost analiziranog parametra utječu i drugi čimbenici koji nisu opisani u pojedinom modelu.

Sljedeći koeficijent -0,16285 koji se nalazi u ćeliji B18 pokazuje težinu utjecaja varijable X na Y. To znači da prosječna mjesečna plaća zaposlenih unutar razmatranog modela utječe na broj onih koji su odustali s težinom od -0,16285, tj. stupanj njezina utjecaja uopće mali. Znak "-" označava da koeficijent ima negativnu vrijednost. To je očito, jer svi znaju da što je veća plaća u poduzeću, to manje ljudi izražava želju za prekidom ugovora o radu ili davanjem otkaza.

Višestruka regresija

Ovaj izraz se odnosi na jednadžbu veze s nekoliko neovisnih varijabli oblika:

y \u003d f (x 1 + x 2 + ... x m) + ε, gdje je y efektivna značajka (ovisna varijabla), a x 1 , x 2 , ... x m faktori faktora (nezavisne varijable).

Procjena parametara

Za višestruku regresiju (MR) ona se provodi metodom najmanjih kvadrata (OLS). Za linearne jednadžbe oblika Y = a + b 1 x 1 +…+b m x m + ε, konstruiramo sustav normalnih jednadžbi (vidi dolje)

Da bismo razumjeli princip metode, razmotrimo slučaj dva faktora. Tada imamo situaciju opisanu formulom

Odavde dobivamo:

gdje je σ varijanca odgovarajuće značajke koja se odražava u indeksu.

LSM je primjenjiv na MP jednadžbu na standardiziranoj skali. U ovom slučaju dobivamo jednadžbu:

gdje su t y , t x 1, … t xm standardizirane varijable za koje su srednje vrijednosti 0; β i su standardizirani regresijski koeficijenti, a standardna devijacija je 1.

Imajte na umu da su svi β i u ovom slučaju postavljeni kao normalizirani i centralizirani, pa se njihova međusobna usporedba smatra ispravnom i dopuštenom. Osim toga, uobičajeno je filtrirati faktore, odbacujući one s najmanjim vrijednostima βi.

Problem korištenja jednadžbe linearne regresije

Pretpostavimo da postoji tablica dinamike cijena određenog proizvoda N tijekom posljednjih 8 mjeseci. Potrebno je donijeti odluku o svrsishodnosti kupnje njegove serije po cijeni od 1850 rubalja/t.

broj mjeseca

ime mjeseca

cijena artikla N

1750 rubalja po toni

1755 rubalja po toni

1767 rubalja po toni

1760 rubalja po toni

1770 rubalja po toni

1790 rubalja po toni

1810 rubalja po toni

1840 rubalja po toni

Za rješavanje ovog problema u Excel tablici potrebno je koristiti već poznati alat za analizu podataka iz gornjeg primjera. Zatim odaberite odjeljak "Regresija" i postavite parametre. Treba imati na umu da se u polje "Interval unosa Y" mora unijeti raspon vrijednosti za zavisnu varijablu (u ovom slučaju cijena proizvoda u određenim mjesecima u godini), a u "Unos" interval X" - za nezavisnu varijablu (broj mjeseca). Potvrdite radnju klikom na "U redu". Na novom listu (ako je tako naznačeno) dobivamo podatke za regresiju.

Na temelju njih gradimo linearnu jednadžbu oblika y=ax+b, gdje su parametri a i b koeficijenti retka s nazivom broja mjeseca i koeficijenti i retka “Y-presjeka” iz list s rezultatima regresijske analize. Stoga je jednadžba linearne regresije (LE) za problem 3 napisana kao:

Cijena proizvoda N = 11,714* broj mjeseca + 1727,54.

ili u algebarskom zapisu

y = 11,714 x + 1727,54

Analiza rezultata

Da bismo odlučili je li dobivena jednadžba odgovarajuća Linearna regresija, koriste se višestruki koeficijenti korelacije (MCC) i koeficijenti determinacije, te Fisherov i Studentov test. U Excel tablici s rezultatima regresije oni se pojavljuju pod nazivima višestruki R, R-kvadrat, F-statistika i t-statistika.

KMC R omogućuje procjenu čvrstoće vjerojatnosnog odnosa između neovisnih i zavisnih varijabli. Njegova visoka vrijednost ukazuje na prilično jak odnos između varijabli "Broj mjeseca" i "Cijena robe N u rubljama po 1 toni". Međutim, priroda ovog odnosa ostaje nepoznata.

Kvadrat koeficijenta determinacije R 2 (RI) je numerička karakteristika udjela ukupnog raspršenja i pokazuje raspršenost kojeg dijela eksperimentalnih podataka, tj. vrijednosti zavisne varijable odgovara jednadžbi linearne regresije. U razmatranom problemu ta je vrijednost jednaka 84,8%, tj. statistički podaci su s visokim stupnjem točnosti opisani dobivenim SD-om.

F-statistika, također nazvana Fisherov test, koristi se za procjenu značaja linearnog odnosa, opovrgavajući ili potvrđujući hipotezu o njegovom postojanju.

(Studentov kriterij) pomaže u procjeni značajnosti koeficijenta s nepoznatim ili slobodnim članom linearne veze. Ako je vrijednost t-kriterija > t cr, hipoteza o beznačajnosti slobodnog člana Linearna jednadžba odbijena.

U razmatranom problemu za slobodni član pomoću Excel alata dobiveno je da je t = 169,20903, a p = 2,89E-12, tj. imamo nultu vjerojatnost da će točna hipoteza o beznačajnosti slobodnog člana biti odbijena. Za koeficijent pri nepoznatom t=5,79405, i p=0,001158. Drugim riječima, vjerojatnost da će ispravna hipoteza o beznačajnosti koeficijenta za nepoznanicu biti odbačena je 0,12%.

Stoga se može tvrditi da je rezultirajuća jednadžba linearne regresije primjerena.

Problem svrsishodnosti kupnje paketa dionica

Višestruka regresija u Excelu izvodi se pomoću istog alata za analizu podataka. Razmotrimo određeni primijenjeni problem.

Uprava NNN-a mora donijeti odluku o svrsishodnosti kupnje 20% udjela u MMM SA. Cijena paketa (JV) je 70 milijuna američkih dolara. Stručnjaci NNN-a prikupili su podatke o sličnim transakcijama. Odlučeno je procijeniti vrijednost paketa dionica prema takvim parametrima, izraženim u milijunima američkih dolara, kao što su:

  • računi prema dobavljačima (VK);
  • volumen godišnji promet(VO);
  • potraživanja (VD);
  • trošak stalnih sredstava (SOF).

Osim toga, koristi se parametar dospjelih plaća poduzeća (V3 P) u tisućama američkih dolara.

Rješenje korištenjem Excel proračunske tablice

Prije svega, morate napraviti tablicu početnih podataka. Ovako izgleda:

  • nazovite prozor "Analiza podataka";
  • odaberite odjeljak "Regresija";
  • u polje "Interval unosa Y" unesite raspon vrijednosti zavisnih varijabli iz stupca G;
  • kliknite na ikonu sa crvenom strelicom desno od prozora "Interval unosa X" i odaberite raspon svih vrijednosti iz stupaca B, C, D, F na listu.

Odaberite "Novi radni list" i kliknite "U redu".

Dobiti regresijsku analizu za dati problem.

Ispitivanje rezultata i zaključci

"Prikupljamo" iz zaokruženih podataka prikazanih gore na Excel proračunskoj tablici, regresijsku jednadžbu:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265.844.

U poznatijem matematički oblik može se napisati kao:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Podaci za JSC "MMM" prikazani su u tablici:

Zamjenom u regresijsku jednadžbu dobiva se brojka od 64,72 milijuna dolara. To znači da dionice JSC MMM ne treba kupovati, jer je njihova vrijednost od 70 milijuna američkih dolara prilično precijenjena.

Kao što vidite, korištenje proračunske tablice programa Excel i regresijske jednadžbe omogućilo je donošenje informirane odluke o izvedivosti vrlo specifične transakcije.

Sada znate što je regresija. Gore navedeni primjeri u Excelu pomoći će vam u rješavanju praktičnih problema iz područja ekonometrije.

Pitanja:

4. Procjena parametara linearnog modela višestruke regresije.

5. Procjena kvalitete višestruke linearne regresije.

6. Analiza i predviđanje na temelju multifaktorskih modela.

Višestruka regresija je generalizacija parne regresije. Koristi se za opisivanje odnosa između objašnjene (ovisne) varijable Y i eksplanatornih (neovisnih) varijabli X 1 ,X 2 ,…,X k . Višestruka regresija može biti linearna ili nelinearna, ali se linearna višestruka regresija najčešće koristi u ekonomiji.

teoretski linearni model višestruka regresija izgleda ovako:

odgovarajuća regresija uzorka je označena sa:

Kao i u parnoj regresiji, slučajni član ε mora zadovoljiti osnovne pretpostavke regresijske analize. Zatim se uz pomoć LSM-a dobivaju najbolje nepristrane i učinkovite procjene teorijskih regresijskih parametara. Osim toga, varijable H 1 ,H 2 ,…,H k moraju biti međusobno nekorelirane (linearno neovisne). Da bismo zapisali formule za procjenu regresijskih koeficijenata (2), dobivenih na temelju LSM-a, uvodimo sljedeću oznaku:

Tada možemo pisati u obliku vektorske matrice teorijski model:

i selektivna regresija

OLS dovodi do sljedeće formule za procjenu vektora koeficijenata regresija uzorka:

(3)

Za procjenu koeficijenata višestruke linearne regresije s dvije neovisne varijable , možemo riješiti sustav jednadžbi:

(4)

Kao u uparenoj linearnoj regresiji, za višestruku regresiju izračunava se regresijska standardna pogreška S:

(5)

i standardne pogreške regresijskih koeficijenata:

(6)

značajnost koeficijenata provjerava se t-testom.

imajući Studentovu distribuciju s brojem stupnjeva slobode v= n-k-1.

Za ocjenu kvalitete regresije koristi se koeficijent (indeks) determinacije:

, (8)

što je bliže 1, to je veća kvaliteta regresije.

Za provjeru značajnosti koeficijenta determinacije koristi se Fisherov kriterij ili F-statistika.



(9)

S v1=k, v2=n-k-1 stupnjeva slobode.

U multivarijatnoj regresiji, dodavanje dodatnih eksplanatornih varijabli povećava koeficijent determinacije. Kako bi se nadoknadio takav porast, uvodi se prilagođeni (ili normalizirani) koeficijent determinacije:

(10)

Ako je povećanje udjela regresije objašnjeno dodavanjem nove varijable malo, tada se može smanjiti. Dakle, dodavanje nove varijable nije prikladno.

Primjer 4:

Uzmimo u obzir ovisnost dobiti poduzeća o trošku nove opreme i strojeva te o trošku poboljšanja vještina zaposlenika. Prikupljeni statistički podaci o 6 poduzeća iste vrste. Podaci u milijunima den. jedinice dati su u tabeli 1.

stol 1

Nacrtajte dvosmjernu linearnu regresiju i procijeniti njegov značaj. Uvedimo oznaku:

Transponiramo matricu X:

Inverzija ove matrice:

stoga se ovisnost dobiti o trošku nove opreme i strojeva te o trošku poboljšanja vještina zaposlenika može opisati sljedećom regresijom:

Koristeći formulu (5), gdje je k=2, izračunavamo standardnu ​​pogrešku regresije S=0,636.

Standardne pogreške regresijskih koeficijenata izračunavamo pomoću formule (6):

Slično:

Provjerimo značajnost koeficijenata regresije a 1 , a 2 . izračunati t izr.

Biramo razinu značajnosti, broj stupnjeva slobode

znači koeficijent a 1 značajan.

Procijenimo značajnost koeficijenta a 2:

Koeficijent a 2 neznatan.

Izračunajmo koeficijent determinacije prema formuli (7) . Dobit poduzeća za 96% ovisi o troškovima nove opreme i strojeva i napredne obuke za 4% od drugih i slučajnih čimbenika. Provjerimo značajnost koeficijenta determinacije. Izračunajte F kalk.:

zatim. koeficijent determinacije je značajan, regresijska jednadžba je značajna.

Od velike važnosti u analizi temeljenoj na multivarijatnoj regresiji je usporedba utjecaja faktora na ovisni pokazatelj y. Regresijski koeficijenti se ne koriste u tu svrhu, zbog razlika u mjernim jedinicama i različitim stupnjevima fluktuacije. Od ovih nedostataka, koeficijenti slobodne elastičnosti su:

Elastičnost pokazuje koliko se posto u prosjeku mijenja ovisni pokazatelj y kada se varijabla promijeni za 1%, pod uvjetom da vrijednosti ostalih varijabli ostanu nepromijenjene. Što je veći, veći je utjecaj odgovarajuće varijable. Kao i u parnoj regresiji, za višestruku regresiju pravi se razlika između točkaste prognoze i intervalne prognoze. Točkasta prognoza (broj) dobiva se zamjenom predviđenih vrijednosti nezavisnih varijabli u jednadžbu višestruke regresije. Označiti sa:

(12)

vektor prediktivnih vrijednosti nezavisnih varijabli, zatim točkasta prognoza

standardna pogreška predviđanje u slučaju višestruke regresije definira se na sljedeći način:

(15)

Razinu značajnosti α biramo prema tablici Studentove distribucije. Za razinu značajnosti α i broj stupnjeva slobode ν = n-k-1 nalazimo t cr. Tada prava vrijednost y p s vjerojatnošću 1- α pada u interval:


Tema 5:

Vremenske serije.

Pitanja:

4. Osnovni pojmovi vremenskih serija.

5. Glavni trend razvoja je trend.

6. Izgradnja aditivnog modela.

Vremenske serije predstavljaju skup vrijednosti bilo kojeg pokazatelja za nekoliko uzastopnih trenutaka ili vremenskih razdoblja.

Trenutak (ili period) vremena označava se s t, a vrijednost indikatora u trenutku vremena označava se s y (t) i naziva se razina reda .

Svaka razina vremenske serije formirana je pod utjecajem velikog broja čimbenika koji se mogu podijeliti u 3 skupine:

Dugoročni, trajni čimbenici koji odlučujuće utječu na proučavanu pojavu i tvore glavni trend niza - trend T(t).

Kratkoročni periodični čimbenici koji tvore sezonske fluktuacije serije S(t).

Slučajni faktori koji tvore slučajne promjene u razinama niza ε(t).

Aditivni model vremenska serija je model u kojem je svaka razina serije predstavljena zbrojem trenda, sezonskog i slučajna komponenta:

Multiplikativni model je model u kojem je svaka razina niza proizvod navedenih komponenti:

Odabir jednog od modela temelji se na analizi strukture sezonskih kolebanja. Ako je amplituda oscilacija približno konstantna, tada se gradi aditivni model. Ako se amplituda povećava, onda multiplikativni model.

Glavni zadatak ekonometrijske analize je identificirati svaku od navedenih komponenti.

Glavni trend razvoja (trend) naziva se glatka i stabilna promjena u razinama serije tijekom vremena, bez slučajnih i sezonskih fluktuacija.

Zadatak identificiranja glavnih trendova razvoja naziva se usklađivanje vremenskih serija .

Metode usklađivanja vremenskih serija uključuju:

1) metoda povećanja intervala,

2) metoda pomični prosjek,

3) analitičko usklađivanje.

1) Uvećana su razdoblja na koja se odnose razine niza. Zatim se razine serije zbrajaju preko povećanih intervala. Fluktuacije u razinama zbog slučajnih uzroka međusobno se poništavaju. Opći trend se jasnije otkriva.

2) Za određivanje broja prvih razina niza, Prosječna vrijednost. Zatim se prosjek računa iz istog broja razina u nizu, počevši od druge razine, i tako dalje. prosječna vrijednost klizi nizom dinamike, napredujući za 1 period (vremenska točka). Broj razina niza za koje se izračunava prosjek može biti paran ili neparan. Za neparni pomični prosjek, pogledajte sredinu kliznog razdoblja. Za parno razdoblje, nalaženje prosječne vrijednosti ne uspoređuje se s definicijom t, već se primjenjuje postupak centriranja, tj. izračunajte prosjek dvaju uzastopnih pomičnih prosjeka.

3) Izgradnja analitička funkcija karakterizira ovisnost razine serije o vremenu. Za izgradnju trendova koriste se sljedeće funkcije:

Parametri trenda određuju se metodom najmanjih kvadrata. Izbor najbolje funkcije provodi se na temelju koeficijenta R 2 .

Na primjeru ćemo izgraditi aditivni model.

Primjer 7:

Postoje kvartalni podaci o količini potrošnje električne energije na određenom području za 4 godine. Podaci u milijunima kW u tablici 1.

stol 1

Izgradite model vremenske serije.

U ovom primjeru broj kvartala smatramo nezavisnom varijablom, a tromjesečnu potrošnju električne energije zavisnom varijablom y(t).

Iz dijagrama raspršenja možete vidjeti da je trend (trend) linearan. Također možete vidjeti prisutnost sezonskih fluktuacija (period = 4) iste amplitude, tako da ćemo izgraditi aditivni model.

Izrada modela uključuje sljedeće korake:

1. Poravnat ćemo izvornu seriju koristeći pomični prosjek za 4 kvartala i izvesti centriranje:

1.1. Zbrojimo razine serije uzastopno za svaka 4 kvartala s pomakom od 1 točke u vremenu.

1.2. Dijeljenjem dobivenih zbrojeva s 4 nalazimo pomične prosjeke.

1.3. Usklađujemo ove vrijednosti sa stvarnim točkama u vremenu, za koje nalazimo prosječnu vrijednost dvaju uzastopnih pomičnih prosjeka - centriranih pomičnih prosjeka.

2. Izračunajte sezonsku varijaciju. Sezonska varijacija (t) = y(t) - centrirani pomični prosjek. Napravimo tablicu 2.

tablica 2

Kroz blok broj t Potrošnja električne energije Y(t) Pomični prosjek od 4 kvartala Centrirani pomični prosjek Procjena sezonskih varijacija
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. Na temelju sezonskih varijacija u tablici 3 izračunava se sezonska komponenta.

Indikatori Godina Broj kvartala u godini I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Ukupno 1,8 -5,875 -3,825 8,125 Iznos
Prosjek 0,6 -1,958 -1,275 2,708 0,075
Sezonska komponenta 0,581 -1,977 -1,294 2,690

4. Eliminirati sezonska komponenta od početnih razina serije:

Zaključak:

Aditivni model objašnjava 98,4% opća varijacija razine izvorne vremenske serije.

Klikom na gumb "Preuzmi arhivu" besplatno preuzimate potrebnu datoteku.
Prije preuzimanja dana datoteka sjetite se onih dobrih eseja, kontrolnih, seminarskih, teze, članke i druge dokumente koji leže nezatraženi na vašem računalu. Ovo je vaš rad, treba sudjelovati u razvoju društva i koristiti ljudima. Pronađite ove radove i pošaljite ih u bazu znanja.
Mi i svi studenti, diplomanti, mladi znanstvenici koji koriste bazu znanja u svom studiranju i radu bit ćemo vam jako zahvalni.

Za preuzimanje arhive s dokumentom unesite peteroznamenkasti broj u polje ispod i kliknite gumb "Preuzmi arhivu"

###### ## ## ###### ######
## ### ### ## ##
## #### ## ##### ##
## ## ## ## ## ##
## ## ###### ## ## ## ## ##
#### ## ###### #### ####

Unesite gore prikazani broj:

Slični dokumenti

    Osnove izgradnje i ispitivanja adekvatnosti ekonomski modeli višestruke regresije, problem njihove specifikacije i posljedice pogrešaka. Metodičko-informacijska podrška multiploj regresiji. Numerički primjer višestruki regresijski modeli.

    seminarski rad, dodan 10.02.2014

    Koncept višestrukog regresijskog modela. Bit metode najmanjih kvadrata koja se koristi za određivanje parametara jednadžbe višestruke linearne regresije. Ocjena kvalitete dosjeda regresijska jednadžba na podatke. Koeficijent determinacije.

    seminarski rad, dodan 22.01.2015

    Izgradnja modela višestruke linearne regresije prema zadanim parametrima. Ocjena kvalitete modela koeficijentima determinacije i višestruke korelacije. Određivanje značajnosti regresijske jednadžbe na temelju Fisherova F-testa i Studentova t-testa.

    test, dodan 01.12.2013

    Izrada jednadžbe višestruke regresije u linearnom obliku s cijeli setčimbenici, izbor informativnih čimbenika. Provjera značajnosti regresijske jednadžbe Fisherovim testom i statističke značajnosti regresijskih parametara Studentovim testom.

    laboratorijski rad, dodan 17.10.2009

    Opis klasičnog linearnog modela višestruke regresije. Analiza matrice uparenih korelacijskih koeficijenata na postojanje multikolinearnosti. Procjena uparenog regresijskog modela s najznačajnijim faktorom. Grafička konstrukcija intervala prognoze.

    seminarski rad, dodan 17.01.2016

    Čimbenici koji tvore cijenu stanova u kućama u izgradnji u St. Petersburgu. Sastavljanje matrice uparenih korelacijskih koeficijenata polaznih varijabli. Testiranje pogrešaka jednadžbe višestruke regresije za heteroskedastičnost. Gelfeld-Quandtov test.

    test, dodan 14.05.2015

    Procjena distribucije varijable X1. Modeliranje odnosa varijabli Y i X1 pomoću linearne funkcije i metode višestruke linearne regresije. Usporedba kvalitete izrađenih modela. Izrada bodovne prognoze za zadane vrijednosti.

    seminarski rad, dodan 24.06.2015

Dobar dan, dragi čitatelji.
U prethodnim sam člancima na praktičnim primjerima pokazao kako riješiti probleme klasifikacije (problem kreditnog bodovanja) i osnove analize tekstualnih informacija (problem putovnice). Danas bih se želio dotaknuti još jedne vrste problema, naime regresijskog oporavka. Zadaci ove klase obično se koriste u predviđanju.
Za primjer rješavanja problema predviđanja uzeo sam skup podataka energetske učinkovitosti iz najvećeg UCI repozitorija. Tradicionalno, koristit ćemo Python s pandama i scikit-learn analitičkim paketima kao alatima.

Opis skupa podataka i izjava problema

Dan je skup podataka koji opisuje sljedeće atribute prostorije:

Sadrži karakteristike prostorije na temelju kojih će se provesti analiza i - vrijednosti opterećenja koje je potrebno predvidjeti.

Preliminarna analiza podataka

Prvo, učitajmo naše podatke i pogledajmo ih:

Iz pandas import read_csv, DataFrame iz sklearn.neighbors uvoz KNeighborsRegressor iz sklearn.linear_model import LinearRegression, LogisticRegression iz sklearn.svm import SVR iz sklearn.ensemble import RandomForestRegressor iz sklearn.metrics import r2_score iz sklearn.cross_validency import train_test_splitEfficiency /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Sada da vidimo jesu li neki atributi povezani. To se može učiniti izračunavanjem koeficijenata korelacije za sve stupce. Kako to učiniti opisano je u prethodnom članku:

skup podataka.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3,558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0,000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1,381805e-16 -1,079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0,000000e+00 0.889431 0.895785
X6 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 1.000000 0,000000e+00 0,000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1,381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3,558613e-16 0,000000e+00 -1,079129e-16 0,000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Kao što možete vidjeti iz naše matrice, sljedeći stupci međusobno koreliraju (vrijednost koeficijenta korelacije je veća od 95%):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
Sada odaberimo koje stupce naših parova možemo ukloniti iz našeg odabira. Da bismo to učinili, u svakom paru odabiremo stupce koji imaju veći utjecaj na predviđene vrijednosti Y1 i Y2 i ostavite ih, a ostale izbrišite.
Kao što vidite, matrice s koeficijentima korelacije uključene y1 ,y2 više vrijednosti prikazati X2 i X5 nego X1 i X4, tako da možemo ukloniti zadnje stupce koje možemo.

Skup podataka = dataset.drop(["X1","X4"], os=1) dataset.head()
Osim toga, vidi se da polja Y1 i Y2 međusobno vrlo blisko koreliraju. Ali, budući da moramo predvidjeti obje vrijednosti, ostavljamo ih "kakve jesu".

Izbor modela

Odvojite prognozirane vrijednosti iz našeg uzorka:

Trg = skup podataka[["Y1","Y2"]] trn = skup podataka.drop(["Y1","Y2"], os=1)
Nakon obrade podataka, možete nastaviti s izradom modela. Za izradu modela koristit ćemo sljedeće metode:

Teorija o ovim metodama može se pročitati u tečaju predavanja K. V. Vorontsova o strojnom učenju.
Procijenit ćemo pomoću koeficijenta determinacije ( R-kvadrat). Ovaj koeficijent definira se na sljedeći način:

Gdje je uvjetna varijanca zavisne varijable na faktorom x.
Koeficijent dobiva vrijednost na intervalu i što je bliži 1, to je ovisnost jača.
Pa, sada možete prijeći izravno na izradu modela i odabir modela. Stavimo sve naše modele na jedan popis radi lakše daljnje analize:

Modeli=
Dakle, modeli su spremni, sada ćemo naše izvorne podatke podijeliti u 2 poduzorka: test i obrazovni. Oni koji su čitali moje prethodne članke znaju da se to može učiniti pomoću funkcije train_test_split() iz paketa scikit-learn:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0.4)
Budući da trebamo predvidjeti 2 parametra, moramo napraviti regresiju za svaki od njih. Osim toga, za daljnju analizu možete zabilježiti dobivene rezultate u privremenu DataFrame. Možete to učiniti ovako:

#kreiraj privremene strukture TestModels = DataFrame() tmp = () #za svaki model s liste za model u modelima: #dobi ime modela m = str(model) tmp["Model"] = m[:m.index( "( ")] #za svaki stupac skupa rezultata za i u xrange(Ytrn.shape): #uvježbajte model model.fit(Xtrn, Ytrn[:,i]) #izračunajte koeficijent determinacije tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #zapisivanje podataka i konačni DataFrame TestModels = TestModels.append() #napravi indeks prema nazivu modela TestModels.set_index ("Model", inplace= true)
Kao što možete vidjeti iz gornjeg koda, funkcija r2_score() koristi se za izračun koeficijenta.
Dakle, podaci za analizu su primljeni. Izgradimo sada grafikone i vidimo koji je model pokazao najbolji rezultat:

Slika, axes = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="traka", title="(!LANG:R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Analiza rezultata i zaključci

Iz gornjih grafikona možemo zaključiti da se metoda bolje nosila sa zadatkom od ostalih. Slučajna šuma(slučajna šuma). Njegovi koeficijenti determinacije veći su od ostalih u obje varijable:
Za daljnju analizu, ponovno uvježbajmo naš model:

Model = modelsmodel.fit(Xtrn, Ytrn)
Pomnijim ispitivanjem može se postaviti pitanje zašto je zavisni uzorak posljednji put podijeljen Ytrn na varijable (po stupcima), a sada to ne radimo.
Činjenica je da neke metode, kao npr RandomForestRegressor, može raditi s nekoliko prediktivnih varijabli, dok druge (npr SVR) može raditi samo s jednom varijablom. Stoga smo u prethodnom treningu koristili particiju po stupcima kako bismo izbjegli pogreške u procesu izgradnje nekih modela.
Odabir modela je, naravno, dobar, ali također bi bilo lijepo imati informacije o tome kako će svaki faktor utjecati na predviđenu vrijednost. Da bi to učinio, model ima svojstvo značajke_važnosti_.
Pomoću njega možete vidjeti težinu svakog faktora u konačnim modelima:

Model.feature_importances_
niz([ 0,40717901, 0,11394948, 0,34984766, 0,00751686, 0,09158358,
0.02992342])

U našem slučaju vidljivo je da ukupna visina i površina najviše utječu na opterećenje grijanja i hlađenja. Njihov ukupni doprinos prediktivnom modelu je oko 72%.
Također treba napomenuti da prema gornjoj shemi možete vidjeti utjecaj svakog čimbenika zasebno na grijanje i zasebno na hlađenje, ali budući da su ti čimbenici vrlo blisko povezani jedni s drugima (), napravili smo opći zaključak o oba njih, što je gore napisano .

Zaključak

U članku sam pokušao prikazati glavne faze u regresijska analiza podatke s Pythonom i analitičkim paketima pande i scikit-lear.
Treba napomenuti da je skup podataka posebno odabran na takav način da bude što formaliziran i primarna obrada ulazni podaci bi bili minimalni. Po mom mišljenju, članak će biti koristan onima koji tek počinju svoj put u analizi podataka, kao i onima koji imaju dobru teorijsku bazu, ali biraju alate za rad.