Biografije Karakteristike Analiza

Primjer višestruke linearne regresije. Rješenje pomoću Excel tabele

Imam veliku policu za knjige koja uključuje mnoge knjige podijeljene u mnogo varijanti. Na gornjoj polici nalaze se vjerske knjige kao što su knjige o fikhu, tauhidske knjige, tesawufske knjige, knjige o nahvuu, itd. Uredno su poredani u mnogo redova, a neki od njih su uredno poređani prema piscima. Na drugom nivou su moje studiozne knjige kao što su gramatika, knjige za pisanje, TOEFL knjige itd. Oni su raspoređeni na osnovu veličina. Na sledećoj polici nalaze se mnoge vrste naučni i knjige sa znanjem; na primjer, filozofije, politike, historije, itd. Za njih postoje tri nivoa. Na kraju, na dnu moje police za knjige su rječnici, to su arapski rječnici i rječnici engleskog jezika, kao i indonežanski rječnici. Zaista, na mojoj velikoj polici za knjige postoji šest nivoa i poredani su u mnogo redova. Prvi nivo uključuje religiozne knjige, drugi nivo uključuje moje studiozne knjige, nivo koji ima tri nivoa uključuje mnoge vrste naučnih knjiga i knjiga sa znanjem, a poslednji nivo uključuje rečnike. Ukratko, obožavam svoju policu za knjige.

Redoslijed od specifičnog do opšteg

Vještine potrebne za pisanje kreću se od pravljenja odgovarajućih grafičkih oznaka, preko korištenja resursa odabranog jezika, do predviđanja reakcija željenih čitalaca. Prva oblast vještina uključuje usvajanje sistema pisanja, koji može biti abecedni (kao u evropskim jezicima) ili neazbučni (kao u mnogim azijskim jezicima). Drugo područje vještina zahtijeva odabir odgovarajuće gramatike i rječnika za formiranje prihvatljivih rečenica, a zatim njihovo slaganje u paragrafe. Treće, pisanje uključuje razmišljanje o svrsi teksta koji treba sastaviti i o njegovim mogućim efektima na željenu čitalačku publiku. Jedan važan aspekt ove posljednje karakteristike je izbor odgovarajućeg stila. Za razliku od govora, pisanje je složen sociokognitivni proces koji se mora steći godinama obuke ili školovanja. (Swales i Feak, 1994, str. 34)

Redoslijed od opšteg do specifičnog

"Povremeni rad kao blagajnik u Piggly Wigglyju dao mi je odličnu priliku da posmatram ljudsko ponašanje. Ponekad o kupcima razmišljam kao o bijelim pacovima u laboratorijskom eksperimentu, a o prolazima kao o lavirintu koji je dizajnirao psiholog. Većina pacovi - mušterije, mislim - slijede rutinski obrazac, šetaju se gore-dolje kroz prolaze, provjeravaju kroz moj padobran, a zatim pobjegnu kroz izlazni otvor. abnormalni kupac: amnezičar, super kupac i šaljivdžija... ."

Mnogo je faktora koji doprinose uspjehu studenata na fakultetu. Prvi faktor je imati na umu cilj prije uspostavljanja kursa studija. Cilj može biti toliko opšti kao i želja da se bolje obrazujemo za budućnost. Specifičniji cilj bi bio sticanje kvalifikacije za nastavu. Drugi faktor vezan za uspjeh učenika je samomotivacija i posvećenost. Student koji želi uspjeti i radi na toj želji lako će postići uspjeh kao student. Treći faktor vezan za uspjeh studenata je korištenje usluga fakulteta. Većina studenata početnika ne shvaća koliko je važno posjetiti savjetnika ili se posavjetovati s bibliotekarom ili službenikom za finansijsku pomoć.

Tri su razloga zašto je Kanada jedan od njih najbolji zemalja u svijetu. Prvo, Kanada ima odličnu zdravstvenu uslugu. Svi Kanađani imaju pristup medicinskim uslugama po razumnoj cijeni. Drugo, Kanada ima visok standard obrazovanja. Studenti se podučavaju da budu dobro obučeni nastavnici i ohrabruju se da nastave školovanje na univerzitetu. Konačno, kanadski gradovi su čisti i efikasno organizovani. Kanadski gradovi imaju mnogo parkova i puno prostora za život ljudi. Kao rezultat toga, Kanada je poželjno mjesto za život.

Jorka je jurišalo šest njemačkih vojnika koji su ga napali s fiksnim bajonetima. Navukao je perlo na šestog čovjeka, pucao, a zatim na petog. Radio je svoj put niz liniju, i prije nego što je to shvatio, prvi čovjek je bio sasvim sam. York ga je ubio jednim hicem.

Dok je razgledao kampus, koji se gotovo nije promijenio, osjetio je olakšanje od onih trenutaka koje je proveo s Nancy. Prisjetio se kako bi njih dvoje sjedili pored jezerca, ćaskali bez kraja dok su hranili ribice i kako bi zajedno šetali, izgubljeni u svom svijetu. Da, Nancy je bila jedna od rijetkih prijatelja koje je ikada imao. ….Odjednom ga je ispunila nostalgija kad se prisjetio tog popodneva kada se oprostio od Nancy. Glasno je šmrcnuo dok su mu se oči napunile suzama.

Primjeri rješavanja problema na višestrukoj regresiji

Primjer 1 Jednačina regresije, izgrađena na 17 opažanja, ima oblik:

Rasporedite vrijednosti koje nedostaju, kao i izgradite interval pouzdanosti za b 2 sa vjerovatnoćom od 0,99.

Odluka. Vrijednosti koje nedostaju određuju se pomoću formula:

Dakle, jednadžba regresije sa statističkim karakteristikama izgleda ovako:

Interval povjerenja za b 2 izgraditi prema odgovarajućoj formuli. Ovdje je nivo značajnosti 0,01, a broj stupnjeva slobode je nstr– 1 = 17 – 3 – 1 = 13, gdje je n= 17 – veličina uzorka, str= 3 je broj faktora u jednadžbi regresije. Odavde

ili . Ovaj interval pouzdanosti pokriva pravu vrijednost parametra sa vjerovatnoćom od 0,99.

Primjer 2 Jednačina regresije u standardiziranim varijablama izgleda ovako:

U ovom slučaju, varijacije svih varijabli su jednake sljedećim vrijednostima:

Uporedite faktore prema stepenu uticaja na rezultujuću osobinu i odredite vrednosti parcijalnih koeficijenata elastičnosti.

Odluka. Standardizirane regresijske jednadžbe omogućavaju vam da uporedite faktore po jačini njihovog utjecaja na rezultat. Istovremeno, što je veća apsolutna vrijednost koeficijenta standardizirane varijable, taj faktor jače utječe na rezultirajuću osobinu. U jednačini koja se razmatra faktor koji ima najveći uticaj na rezultat je x 1, koji ima koeficijent 0,82, najslabiji je faktor x 3 sa koeficijentom jednakim - 0,43.

U linearnom modelu višestruke regresije, generalizirani (prosječni) koeficijent parcijalne elastičnosti određen je izrazom koji uključuje prosječne vrijednosti varijabli i koeficijent na odgovarajućem faktoru jednadžbe regresije prirodne skale. U uslovima problema ove količine nisu specificirane. Stoga koristimo izraze za varijaciju u odnosu na varijable:

Odds bj povezane sa standardizovanim koeficijentima βj odgovarajući omjer, koji zamjenjujemo u formulu za prosječni koeficijent elastičnosti:

.

U ovom slučaju, predznak koeficijenta elastičnosti će se poklopiti sa predznakom βj:

Primjer 3 Na osnovu 32 opservacije dobijeni su sljedeći podaci:

Odredite vrijednosti prilagođenog koeficijenta determinacije, parcijalnih koeficijenata elastičnosti i parametra a.

Odluka. Vrijednost prilagođenog koeficijenta determinacije određena je jednom od formula za njegov proračun:

Parcijalni koeficijenti elastičnosti (prosjek u populaciji) izračunavaju se pomoću odgovarajućih formula:

Budući da se linearna jednadžba višestruke regresije izvodi zamjenom prosječnih vrijednosti svih varijabli u nju, određujemo parametar a:

Primjer 4 Za neke varijable dostupne su sljedeće statistike:

Izgradite jednadžbu regresije u standardiziranim i prirodnim skalama.

Odluka. Pošto su koeficijenti parne korelacije između varijabli inicijalno poznati, treba početi konstruisanjem regresione jednačine na standardizovanoj skali. Da biste to učinili, potrebno je riješiti odgovarajući sistem normalnih jednačina, koji u slučaju dva faktora ima oblik:

ili, nakon zamjene početnih podataka:

Rešavamo ovaj sistem na bilo koji način, dobijamo: β1 = 0,3076, β2 = 0,62.

Napišimo jednadžbu regresije na standardiziranoj skali:

Sada pređimo na jednadžbu regresije prirodne skale, za koju koristimo formule za izračunavanje koeficijenata regresije kroz beta koeficijente i svojstvo pravednosti regresijske jednadžbe za prosječne varijable:

Jednačina regresije prirodne skale je:

Primjer 5 Prilikom izgradnje linearne višestruke regresije za 48 mjerenja koeficijent determinacije bio je 0,578. Nakon eliminisanja faktora x 3, x 7 i x 8 koeficijent determinacije je smanjen na 0,495. Da li je odluka o promjeni sastava uticajnih varijabli na nivoima značajnosti od 0,1, 0,05 i 0,01 bila opravdana?

Odluka. Neka je - koeficijent determinacije jednačine regresije sa početnim skupom faktora, - koeficijent determinacije nakon isključenja tri faktora. Izneli smo hipoteze:

;

Glavna hipoteza sugerira da smanjenje magnitude nije bilo značajno, a odluka da se isključi grupa faktora bila je ispravna. Alternativna hipoteza ukazuje na ispravnost odluke o isključenju.

Za testiranje nulte hipoteze koristimo sljedeću statistiku:

,

gdje n = 48, str= 10 - početni broj faktora, k= 3 - broj isključenih faktora. Onda

Uporedimo dobijenu vrijednost sa kritičnom F(α ; 3; 39) na nivou 0,1; 0,05 i 0,01:

F(0,1; 3; 37) = 2,238;

F(0,05; 3; 37) = 2,86;

F(0,01; 3; 37) = 4,36.

Na nivou α = 0,1 F obl > F cr, nula - hipoteza se odbacuje, isključenje ove grupe faktora nije opravdano, na nivoima 0,05 0,01 nula - hipoteza se ne može odbaciti, a isključenje faktora se može smatrati opravdanim.

Primjer 6. Na osnovu kvartalnih podataka od 2000. do 2004. godine dobijena je jednačina. Istovremeno, ESS=110,3, RSS=21,4 (ESS – objašnjeno RMSE, RSS – rezidualni RMSD). U jednadžbu su dodane tri lažne varijable koje odgovaraju prva tri kvartala godine, a ESS vrijednost je povećana na 120,2. Postoji li sezonalnost u ovoj jednadžbi?

Odluka. Ovo je zadatak za provjeru valjanosti uključivanja grupe faktora u jednadžbu višestruke regresije. Tri varijable su dodane originalnoj trofaktorskoj jednačini da bi predstavljale prva tri kvartala godine.

Odredimo koeficijente determinacije jednačina. Ukupna standardna devijacija definirana je kao zbir faktorijalne i rezidualne standardne devijacije:

TSS = ESS 1 + RSS 1 = 110,3 + 21,4 = 131,7

Testiramo hipoteze. Za testiranje nulte hipoteze koristimo statistiku

Evo n= 20 (20 kvartala tokom pet godina - od 2000. do 2004.), str = 6 (ukupno faktori u regresijskoj jednadžbi nakon uključivanja novih faktora), k= 3 (broj uključenih faktora). ovako:

Odredimo kritične vrijednosti Fisherove statistike na različitim nivoima značaja:

Na nivoima značajnosti od 0,1 i 0,05 F obl> F cr, nula - hipoteza se odbacuje u korist alternativne, a sezonalnost u regresiji je opravdana (opravdano dodavanje tri nova faktora), i to na nivou od 0,01 F obl< F cr, i nula – hipoteza se ne može odbaciti; dodavanje novih faktora nije opravdano, sezonalnost u regresiji nije značajna.

Primjer 7 Prilikom analize podataka na heteroskedastičnost, cijeli uzorak je podijeljen u tri poduzorka nakon poređenja prema jednom od faktora. Zatim je, na osnovu rezultata trosmerne regresione analize, utvrđeno da je rezidualni RMSE u prvom poduzorku 180, au trećem - 63. Da li je prisustvo heteroskedastičnosti potvrđeno ako je obim podataka u svakom poduzorku 20 ?

Odluka. Izračunajte statistiku za testiranje nulte hipoteze homoskedastičnosti koristeći Goldfeld-Quandt test:

.

Pronađite kritične vrijednosti Fisherove statistike:

Dakle, na nivoima značajnosti od 0,1 i 0,05 F obl> F cr, a odvija se heteroskedastičnost, a na nivou od 0,01 F obl< F cr, a hipoteza homoskedastičnosti se ne može odbaciti.

Primjer 8. Na osnovu kvartalnih podataka dobijena je jednačina višestruke regresije za koju je ESS = 120,32 i RSS = 41,4. Za isti model regresije su rađene posebno na osnovu sljedećih podataka: 1991. kvartal 1 - 1995. kvartal 1 i 1995. kvartal 2 - 1996. kvartal 4. U ovim regresijama, rezidualne standardne devijacije su bile 22,25 odnosno 12,32. Testirajte hipotezu o prisutnosti strukturnih promjena u uzorku.

Odluka. Problem prisutnosti strukturnih promjena u uzorku rješava se Chow testom.

Hipoteze imaju oblik: , gdje s0, s 1 i s2 su rezidualne standardne devijacije za pojedinačnu jednačinu za cijeli uzorak i regresione jednačine za dva poduzorka ukupnog uzorka, respektivno. Glavna hipoteza poriče prisustvo strukturnih promjena u uzorku. Da bi se testirala nulta hipoteza, izračunava se statistika ( n = 24; str = 3):

Budući da je F statistika manja od jedan, null znači da se hipoteza ne može odbaciti za bilo koji nivo značaja. Na primjer, za nivo značajnosti od 0,05.

Regresiona analiza je statistička metoda istraživanja koja vam omogućava da pokažete ovisnost parametra o jednoj ili više nezavisnih varijabli. U predkompjuterskoj eri, njegova upotreba je bila prilično teška, posebno kada se radilo o velikim količinama podataka. Danas, nakon što ste naučili kako napraviti regresiju u Excelu, možete riješiti složene statističke probleme za samo nekoliko minuta. Ispod su konkretnim primjerima iz oblasti ekonomije.

Vrste regresije

Sam koncept je uveden u matematiku 1886. Regresija se dešava:

  • linearno;
  • parabolični;
  • snaga;
  • eksponencijalni;
  • hiperbolično;
  • demonstrativna;
  • logaritamski.

Primjer 1

Razmotrimo problem utvrđivanja zavisnosti broja penzionisanih članova tima od prosječne plate u 6 industrijskih preduzeća.

Zadatak. U šest preduzeća analizirali smo prosečnu mesečnu zaradu i broj zaposlenih koji su otišli zbog vlastitu volju. U tabelarnom obliku imamo:

Broj ljudi koji su otišli

Plata

30000 rubalja

35000 rubalja

40000 rubalja

45000 rubalja

50000 rubalja

55000 rubalja

60000 rubalja

Za problem određivanja zavisnosti broja penzionisanih radnika od prosečne plate u 6 preduzeća, regresioni model ima oblik jednačine Y = a 0 + a 1 x 1 +…+a k x k , gde su x i uticajne varijable , a i su koeficijenti regresije, a k je broj faktora.

Za ovaj zadatak Y je indikator zaposlenih koji su otišli, a faktor koji utiče je plata koju označavamo sa X.

Korištenje mogućnosti proračunske tablice "Excel"

Regresionoj analizi u Excel-u mora prethoditi primjena ugrađenih funkcija na dostupne tabelarne podatke. Međutim, u ove svrhe je bolje koristiti vrlo koristan dodatak "Analysis Toolkit". Da biste ga aktivirali potrebno vam je:

  • sa kartice "Datoteka" idite na odjeljak "Opcije";
  • u prozoru koji se otvori odaberite redak "Dodaci";
  • kliknite na dugme "Idi" koje se nalazi pri dnu, desno od linije "Upravljanje";
  • označite polje pored naziva "Paket analize" i potvrdite svoje radnje klikom na "OK".

Ako je sve urađeno kako treba, željeno dugme će se pojaviti na desnoj strani kartice Podaci, koja se nalazi iznad Excel radnog lista.

u Excelu

Sada kada imamo pri ruci sve potrebne virtuelne alate za izvođenje ekonometrijskih proračuna, možemo početi rješavati naš problem. Za ovo:

  • kliknite na dugme "Analiza podataka";
  • u prozoru koji se otvori kliknite na dugme "Regresija";
  • u kartici koja se pojavi unesite raspon vrijednosti za Y (broj zaposlenih koji su dali otkaz) i za X (njihove plate);
  • Svoje radnje potvrđujemo pritiskom na dugme "Ok".

Kao rezultat, program će automatski popuniti novi list tabele sa podacima regresione analize. Bilješka! Excel ima mogućnost ručnog postavljanja željene lokacije u tu svrhu. Na primjer, to može biti isti list na kojem su vrijednosti Y i X, ili čak Nova knjiga, posebno dizajniran za pohranjivanje takvih podataka.

Analiza rezultata regresije za R-kvadrat

U Excelu podaci dobijeni tokom obrade podataka razmatranog primjera izgledaju ovako:

Prije svega, obratite pažnju na vrijednost R-kvadrata. To je koeficijent determinacije. U ovom primjeru R-kvadrat = 0,755 (75,5%), odnosno izračunati parametri modela objašnjavaju odnos između razmatranih parametara za 75,5%. Što je veća vrijednost koeficijenta determinacije, to je odabrani model primjenjiviji za određeni zadatak. Vjeruje se da ispravno opisuje stvarnu situaciju sa vrijednošću R-kvadrata iznad 0,8. Ako je R-kvadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza omjera

Broj 64.1428 pokazuje kolika će biti vrijednost Y ako su sve varijable xi u modelu koji razmatramo postavljene na nulu. Drugim riječima, može se tvrditi da na vrijednost analiziranog parametra utiču i drugi faktori koji nisu opisani u konkretnom modelu.

Sledeći koeficijent -0,16285, koji se nalazi u ćeliji B18, pokazuje težinu uticaja varijable X na Y. To znači da prosečna mesečna plata zaposlenih u okviru modela koji se razmatra utiče na broj onih koji odustaju sa ponderom od -0,16285, tj. stepen njenog uticaja uopšte mali. Znak "-" označava da koeficijent ima negativnu vrijednost. To je očigledno, jer svi znaju da što je veća plata u preduzeću, to manje ljudi izražava želju za raskidom ugovora o radu ili davanjem otkaza.

Višestruka regresija

Ovaj termin se odnosi na jednadžbu veze sa nekoliko nezavisnih varijabli oblika:

y \u003d f (x 1 + x 2 + ... x m) + ε, gdje je y efektivna karakteristika (zavisna varijabla), a x 1 , x 2 , ... x m su faktori faktori (nezavisne varijable).

Procjena parametara

Za višestruku regresiju (MR) provodi se metodom najmanjih kvadrata (OLS). Za linearne jednadžbe oblika Y = a + b 1 x 1 +…+b m x m + ε, konstruiramo sistem normalnih jednačina (vidi dolje)

Da biste razumjeli princip metode, razmotrite dvofaktorski slučaj. Tada imamo situaciju opisanu formulom

Odavde dobijamo:

gdje je σ varijansa odgovarajuće karakteristike prikazane u indeksu.

LSM je primjenjiv na MP jednadžbinu na standardiziranoj skali. U ovom slučaju dobijamo jednačinu:

gdje su t y , t x 1, … t xm standardizirane varijable za koje su srednje vrijednosti 0; β i su standardizirani koeficijenti regresije, a standardna devijacija je 1.

Napominjemo da su svi β i u ovom slučaju postavljeni kao normalizirani i centralizirani, pa se njihovo međusobno poređenje smatra ispravnim i dopuštenim. Osim toga, uobičajeno je filtrirati faktore, odbacujući one s najmanjim vrijednostima βi.

Problem korištenjem jednadžbe linearne regresije

Pretpostavimo da postoji tabela dinamike cijena određenog proizvoda N tokom posljednjih 8 mjeseci. Potrebno je donijeti odluku o preporučljivosti kupovine njegove serije po cijeni od 1850 rubalja/t.

broj mjeseca

naziv mjeseca

cijena artikla N

1750 rubalja po toni

1755 rubalja po toni

1767 rubalja po toni

1760 rubalja po toni

1770 rubalja po toni

1790 rubalja po toni

1810 rubalja po toni

1840 rubalja po toni

Da biste riješili ovaj problem u Excel tabeli, trebate koristiti alat za analizu podataka koji je već poznat iz gornjeg primjera. Zatim odaberite odjeljak "Regresija" i postavite parametre. Treba imati na umu da se u polje "Input Y interval" mora unijeti raspon vrijednosti za zavisnu varijablu (u ovom slučaju cijena proizvoda u određenim mjesecima u godini), a u "Input X interval" - za nezavisnu varijablu (broj mjeseca). Potvrdite akciju klikom na "U redu". Na novom listu (ako je tako naznačeno) dobijamo podatke za regresiju.

Na osnovu njih gradimo linearnu jednačinu oblika y=ax+b, gde su parametri a i b koeficijenti reda sa nazivom broja meseca i koeficijentima i reda „Y-presek“ iz list sa rezultatima regresione analize. Dakle, jednadžba linearne regresije (LE) za problem 3 se piše kao:

Cijena proizvoda N = 11.714* broj mjeseca + 1727.54.

ili u algebarskoj notaciji

y = 11,714 x + 1727,54

Analiza rezultata

Da se odluči da li je rezultirajuća jednačina adekvatna linearna regresija, koriste se višestruki koeficijenti korelacije (MCC) i koeficijenti determinacije, kao i Fisherov test i Studentov test. U Excel tabeli sa rezultatima regresije, oni se pojavljuju pod nazivima višestrukog R, R-kvadrata, F-statistike i t-statistike, respektivno.

KMC R omogućava procjenu čvrstoće vjerovatnoće odnosa između nezavisnih i zavisnih varijabli. Njegova visoka vrijednost ukazuje na prilično jaku vezu između varijabli "Broj mjeseca" i "Cijena robe N u rubljama po 1 toni". Međutim, priroda ovog odnosa ostaje nepoznata.

Kvadrat koeficijenta determinacije R 2 (RI) je numerička karakteristika udjela u ukupnom raspršenju i prikazuje čiji dio eksperimentalnih podataka, tj. vrijednosti zavisne varijable odgovaraju jednadžbi linearne regresije. U zadatku koji se razmatra ova vrijednost je jednaka 84,8%, odnosno statistički podaci su opisani sa visokim stepenom tačnosti dobijenim SD.

F-statistika, koja se naziva i Fišerov test, koristi se za procjenu značaja linearne veze, pobijajući ili potvrđujući hipotezu o njenom postojanju.

(Studentov kriterijum) pomaže da se proceni značaj koeficijenta sa nepoznatim ili slobodnim članom linearne veze. Ako je vrijednost t-kriterijuma > t cr, onda je hipoteza o beznačajnosti slobodnog člana linearna jednačina odbijeno.

U zadatku koji se razmatra za slobodni član, korišćenjem Excel alata, dobijeno je da je t = 169,20903, i p = 2,89E-12, odnosno da imamo nultu verovatnoću da će tačna hipoteza o beznačajnosti slobodnog člana biti odbijen. Za koeficijent na nepoznatom t=5,79405, i p=0,001158. Drugim riječima, vjerovatnoća da će tačna hipoteza o beznačajnosti koeficijenta za nepoznato biti odbačena je 0,12%.

Stoga se može tvrditi da je rezultirajuća jednačina linearne regresije adekvatna.

Problem svrsishodnosti kupovine paketa akcija

Višestruka regresija u Excelu se izvodi pomoću istog alata za analizu podataka. Razmotrite konkretan primijenjen problem.

Uprava NNN-a mora donijeti odluku o preporučljivosti kupovine 20% udjela u MMM SA. Cijena paketa (JV) je 70 miliona američkih dolara. Stručnjaci NNN-a prikupili su podatke o sličnim transakcijama. Odlučeno je da se vrijednost paketa dionica procijeni prema takvim parametrima, izraženim u milionima američkih dolara, kao što su:

  • obaveze prema dobavljačima (VK);
  • volumen godišnji promet(VO);
  • potraživanja (VD);
  • trošak osnovnih sredstava (SOF).

Pored toga, koristi se parametar zaostale obaveze preduzeća (V3 P) u hiljadama američkih dolara.

Rješenje pomoću Excel tabele

Prije svega, potrebno je kreirati tabelu početnih podataka. izgleda ovako:

  • pozovite prozor "Analiza podataka";
  • odaberite odjeljak "Regresija";
  • u polje "Input interval Y" unesite raspon vrijednosti zavisnih varijabli iz stupca G;
  • kliknite na ikonu sa crvenom strelicom desno od prozora "Input interval X" i odaberite raspon svih vrijednosti ​​iz kolona B, C, D, F na listu.

Odaberite "Novi radni list" i kliknite "U redu".

Dobijte regresionu analizu za dati problem.

Ispitivanje rezultata i zaključaka

"Prikupljamo" iz zaokruženih podataka prikazanih gore na Excel tablici, regresijska jednačina:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

U poznatijem matematički oblik može se napisati kao:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Podaci za AD "MMM" prikazani su u tabeli:

Zamjenjujući ih u regresionu jednačinu, dobijaju cifru od 64,72 miliona američkih dolara. To znači da akcije AD MMM ne treba kupovati, jer je njihova vrijednost od 70 miliona američkih dolara prilično precijenjena.

Kao što vidite, upotreba Excel tabele i regresione jednadžbe omogućila je donošenje informirane odluke u vezi izvodljivosti vrlo specifične transakcije.

Sada znate šta je regresija. Gore navedeni primjeri u Excel-u pomoći će vam u rješavanju praktičnih problema iz područja ekonometrije.

pitanja:

4. Procjena parametara linearnog modela višestruke regresije.

5. Procjena kvaliteta višestruke linearne regresije.

6. Analiza i predviđanje zasnovano na multifaktorskim modelima.

Višestruka regresija je generalizacija parne regresije. Koristi se za opisivanje odnosa između objašnjene (zavisne) varijable Y i eksplanatornih (nezavisnih) varijabli X 1 ,X 2 ,…,X k . Višestruka regresija može biti linearna ili nelinearna, ali je linearna višestruka regresija najšire korištena u ekonomiji.

teorijski linearni model višestruka regresija izgleda ovako:

odgovarajuća regresija uzorka je označena sa:

Kao iu parnoj regresiji, slučajni član ε mora zadovoljiti osnovne pretpostavke regresione analize. Zatim se uz pomoć LSM-a dobijaju najbolje nepristrasne i efikasne procjene teorijskih parametara regresije. Osim toga, varijable H 1 ,H 2 ,…,H k moraju biti nekorelirane (linearno nezavisne) jedna s drugom. Da bismo napisali formule za procjenu koeficijenata regresije (2), dobijenih na osnovu LSM-a, uvodimo sljedeću notaciju:

Tada možemo pisati u obliku vektorske matrice teorijski model:

i selektivna regresija

OLS dovodi do sljedeće formule za procjenu vektora koeficijenata regresija uzorka:

(3)

Za procjenu više koeficijenata linearne regresije sa dvije nezavisne varijable , možemo riješiti sistem jednačina:

(4)

Kao iu parnoj linearnoj regresiji, za višestruku regresiju izračunava se standardna greška regresije S:

(5)

i standardne greške koeficijenata regresije:

(6)

značajnost koeficijenata se provjerava pomoću t-testa.

ima Studentovu distribuciju sa brojem stepeni slobode v= n-k-1.

Za procjenu kvaliteta regresije koristi se koeficijent (indeks) determinacije:

, (8)

što je bliže 1, to je veći kvalitet regresije.

Za provjeru značajnosti koeficijenta determinacije koristi se Fisherov kriterij ili F-statistika.



(9)

sa v1=k, v2=n-k-1 stepeni slobode.

U multivarijantnoj regresiji, dodavanjem dodatnih objašnjavajućih varijabli povećava se koeficijent determinacije. Da bi se nadoknadilo takvo povećanje, uvodi se prilagođeni (ili normalizirani) koeficijent determinacije:

(10)

Ako je povećanje udjela regresije objašnjeno dodavanjem nove varijable malo, onda se može smanjiti. Dakle, dodavanje nove varijable nije prikladno.

Primjer 4:

Razmotrimo zavisnost profita preduzeća od cene nove opreme i mašina i od troškova unapređenja veština zaposlenih. Prikupljeni statistički podaci o 6 preduzeća istog tipa. Podaci u milionima den. jedinice date su u tabeli 1.

Tabela 1

Iscrtajte dvosmjernu linearnu regresiju i proceniti njen značaj. Hajde da uvedemo notaciju:

Transponiramo matricu X:

Inverzija ove matrice:

Dakle, zavisnost profita od cene nove opreme i mašina i od troškova unapređenja veština zaposlenih može se opisati sledećom regresijom:

Koristeći formulu (5), gdje je k=2, izračunavamo standardnu ​​grešku regresije S=0,636.

Standardne greške koeficijenata regresije izračunavamo pomoću formule (6):

Slično:

Provjerimo značaj koeficijenata regresije a 1, a 2. izračunati t kalc.

Biramo nivo značajnosti, broj stepeni slobode

znači koeficijent a 1 značajan.

Procijenimo značaj koeficijenta a 2:

Koeficijent a 2 beznačajan.

Izračunajmo koeficijent determinacije prema formuli (7) . Dobit preduzeća za 96% zavisi od troškova nove opreme i mašina i usavršavanja za 4% od drugih i slučajnih faktora. Provjerimo značajnost koeficijenta determinacije. Izračunaj F izračun:

onda. koeficijent determinacije je značajan, regresiona jednačina je značajna.

Od velikog značaja u analizi zasnovanoj na multivarijantnoj regresiji je poređenje uticaja faktora na zavisni indikator y. Regresijski koeficijenti se ne koriste za ovu svrhu, zbog razlika u mjernim jedinicama i različitim stepenima fluktuacije. Od ovih nedostataka, koeficijenti slobodne elastičnosti su:

Elastičnost pokazuje za koliko posto se u prosjeku mijenja zavisni indikator y kada se varijabla promijeni za 1%, pod uslovom da vrijednosti ostalih varijabli ostanu nepromijenjene. Što je veći, veći je uticaj odgovarajuće varijable. Kao iu uparenoj regresiji, za višestruku regresiju, pravi se razlika između prognoze tačke i prognoze intervala. Prognoza bodova (broj) se dobija zamjenom predviđenih vrijednosti nezavisnih varijabli u jednadžbu višestruke regresije. Označiti sa:

(12)

vektor prediktivnih vrijednosti nezavisnih varijabli, zatim tačku prognoze

standardna greška predviđanje u slučaju višestruke regresije je definirano na sljedeći način:

(15)

Nivo značajnosti α biramo prema Studentovoj tabeli raspodjele. Za nivo značajnosti α i broj stepeni slobode ν = n-k-1 nalazimo t cr. Tada prava vrijednost y p sa vjerovatnoćom 1- α pada u interval:


Tema 5:

Vremenske serije.

pitanja:

4. Osnovni koncepti vremenskih serija.

5. Glavni trend razvoja je trend.

6. Izgradnja aditivnog modela.

Vremenske serije predstavljaju skup vrijednosti bilo kojeg indikatora za nekoliko uzastopnih trenutaka ili vremenskih perioda.

Trenutak (ili period) vremena se označava sa t, a vrijednost indikatora u trenutku označava se sa y (t) i naziva se nivo reda .

Svaki nivo vremenske serije formiran je pod uticajem velikog broja faktora koji se mogu podeliti u 3 grupe:

Dugoročni, trajni faktori koji odlučujuće utiču na fenomen koji se proučava i čine glavni trend serije – trend T(t).

Kratkoročni periodični faktori koji formiraju sezonske fluktuacije S(t) serije.

Slučajni faktori koji formiraju slučajne promjene u nivoima serije ε(t).

Aditivni model vremenska serija je model u kojem je svaki nivo serije predstavljen zbirom trendova, sezonskih i slučajna komponenta:

Multiplikativni model je model u kojem je svaki nivo serije proizvod navedenih komponenti:

Izbor jednog od modela zasniva se na analizi strukture sezonskih fluktuacija. Ako je amplituda oscilacije približno konstantna, tada se gradi aditivni model. Ako se amplituda povećava, onda multiplikativni model.

Glavni zadatak ekonometrijske analize je da identifikuje svaku od navedenih komponenti.

Glavni trend razvoja (trend) naziva glatka i stabilna promjena nivoa serije tokom vremena, bez slučajnih i sezonskih fluktuacija.

Zadatak identificiranja glavnih razvojnih trendova se zove usklađivanje vremenskih serija .

Metode usklađivanja vremenskih serija uključuju:

1) način povećanja intervala,

2) metoda pokretni prosek,

3) analitičko usklađivanje.

1) Vremenski periodi na koje se odnose nivoi serije su uvećani. Zatim se nivoi serije sumiraju na uvećanim intervalima. Fluktuacije u nivoima zbog slučajnih uzroka međusobno se poništavaju. Opšti trend je jasnije otkriven.

2) Za određivanje broja prvih nivoa serije, prosječna vrijednost. Zatim se prosek izračunava od istog broja nivoa u nizu, počevši od drugog nivoa, itd. prosječna vrijednost klizi duž serije dinamike, napredujući za 1 period (tačku u vremenu). Broj nivoa serije preko kojih se izračunava prosjek može biti paran ili neparan. Za neparan pokretni prosek, pogledajte sredinu kliznog perioda. Za paran period nalaženje prosječne vrijednosti se ne poredi sa definicijom t, već se primjenjuje postupak centriranja, tj. izračunati prosek dva uzastopna pokretna proseka.

3) Izgradnja analitička funkcija karakterišući zavisnost nivoa serije od vremena. Za izgradnju trendova koriste se sljedeće funkcije:

Parametri trenda se određuju metodom najmanjih kvadrata. Izbor najbolje funkcije vrši se na osnovu koeficijenta R 2 .

Napravit ćemo aditivni model koristeći primjer.

Primjer 7:

Postoje kvartalni podaci o obimu potrošnje električne energije na određenom području za 4 godine. Podaci u milionima kW u tabeli 1.

Tabela 1

Izgradite model vremenske serije.

U ovom primjeru razmatramo kvartalni broj kao nezavisnu varijablu, a tromjesečnu potrošnju električne energije kao zavisnu varijablu y(t).

Iz dijagrama raspršenja možete vidjeti da je trend (trend) linearan. Također možete vidjeti prisustvo sezonskih fluktuacija (period = 4) iste amplitude, pa ćemo izgraditi aditivni model.

Izrada modela uključuje sljedeće korake:

1. Poravnat ćemo originalnu seriju koristeći pokretni prosjek za 4 četvrtine i izvršiti centriranje:

1.1. Hajde da sumiramo nivoe serije uzastopno za svaka 4 kvartala sa pomakom od 1 tačke u vremenu.

1.2. Deljenjem rezultujuće sume sa 4 nalazimo pokretne proseke.

1.3. Ove vrijednosti dovodimo u skladu sa stvarnim vremenskim točkama, za koje nalazimo prosječnu vrijednost dva uzastopna pokretna prosjeka - centriranih pokretnih prosjeka.

2. Izračunajte sezonsku varijaciju. Sezonska varijacija (t) = y(t) - centrirani pokretni prosjek. Napravimo tabelu 2.

tabela 2

Preko bloka broj t Potrošnja električne energije Y(t) Pokretni prosjek za 4 kvartala Centrirani pokretni prosjek Procjena sezonskih varijacija
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. Na osnovu sezonskih varijacija u Tabeli 3, izračunava se sezonska komponenta.

Indikatori Godina Broj kvartala u godini I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Ukupno 1,8 -5,875 -3,825 8,125 Suma
Prosječna 0,6 -1,958 -1,275 2,708 0,075
Sezonska komponenta 0,581 -1,977 -1,294 2,690

4. Eliminisati sezonska komponenta sa početnih nivoa serije:

zaključak:

Aditivni model objašnjava 98,4% opšta varijacija nivoe originalne vremenske serije.

Klikom na dugme "Preuzmi arhivu" besplatno ćete preuzeti datoteku koja vam je potrebna.
Prije preuzimanja dati fajl sjeti se onih dobrih eseja, kontrolnih, seminarskih radova, teze, članke i druge dokumente koji se ne traže na vašem računaru. Ovo je vaš rad, on treba da učestvuje u razvoju društva i da koristi ljudima. Pronađite ove radove i pošaljite ih u bazu znanja.
Mi i svi studenti, postdiplomci, mladi naučnici koji koriste bazu znanja u svom studiranju i radu bićemo vam veoma zahvalni.

Da preuzmete arhivu sa dokumentom, unesite petocifreni broj u polje ispod i kliknite na dugme "Preuzmi arhivu"

###### ## ## ###### ######
## ### ### ## ##
## #### ## ##### ##
## ## ## ## ## ##
## ## ###### ## ## ## ## ##
#### ## ###### #### ####

Unesite broj prikazan gore:

Slični dokumenti

    Osnove izgradnje i testiranja adekvatnosti ekonomski modeli višestruka regresija, problem njihove specifikacije i posljedice grešaka. Metodička i informatička podrška višestruke regresije. Numerički primjer višestruki regresijski modeli.

    seminarski rad, dodan 10.02.2014

    Koncept modela višestruke regresije. Suština metode najmanjih kvadrata, koja se koristi za određivanje parametara jednačine višestruke linearne regresije. Procjena kvaliteta uklapanja jednadžba regresije na podatke. Koeficijent determinacije.

    seminarski rad, dodan 22.01.2015

    Izgradnja modela višestruke linearne regresije prema navedenim parametrima. Vrednovanje kvaliteta modela koeficijentima determinacije i višestruke korelacije. Određivanje značaja jednačine regresije na osnovu Fišerovog F-testa i Studentovog t-testa.

    test, dodano 01.12.2013

    Izgradnja jednadžbe višestruke regresije u linearnom obliku sa full set faktori, izbor informativnih faktora. Provjera značaja jednačine regresije Fišerovim testom i statističke značajnosti parametara regresije Studentovim testom.

    laboratorijski rad, dodano 17.10.2009

    Opis klasičnog linearnog modela višestruke regresije. Analiza matrice parnih koeficijenata korelacije za prisustvo multikolinearnosti. Evaluacija uparenog regresijskog modela sa najznačajnijim faktorom. Grafička konstrukcija intervala prognoze.

    seminarski rad, dodan 17.01.2016

    Faktori koji formiraju cijenu stanova u kućama u izgradnji u Sankt Peterburgu. Kompilacija matrice parnih koeficijenata korelacije početnih varijabli. Testiranje grešaka jednačine višestruke regresije na heteroskedastičnost. Gelfeld-Quandt test.

    test, dodano 14.05.2015

    Procjena distribucije varijable X1. Modeliranje odnosa između varijabli Y i X1 korištenjem linearne funkcije i metode višestruke linearne regresije. Poređenje kvaliteta izrađenih modela. Izrada bodovne prognoze za date vrijednosti.

    seminarski rad, dodan 24.06.2015

Dobar dan, dragi čitaoci.
U prethodnim člancima, koristeći praktične primjere, pokazao sam kako se rješavaju klasifikacioni problemi (problem kreditnog bodovanja) i osnove analize tekstualnih informacija (problem pasoša). Danas bih želio da se dotaknem još jedne klase problema, a to je oporavak regresije. Zadaci ove klase se obično koriste u predviđanju.
Kao primjer rješavanja problema predviđanja, uzeo sam skup podataka o energetskoj efikasnosti iz najvećeg UCI repozitorija. Tradicionalno ćemo koristiti Python sa pandas i scikit-learn analitičkim paketima kao alatima.

Opis skupa podataka i iskaz problema

Dat je skup podataka koji opisuje sljedeće atribute sobe:

Sadrži karakteristike prostorije na osnovu kojih će se izvršiti analiza i - vrijednosti opterećenja koje je potrebno predvidjeti.

Preliminarna analiza podataka

Prvo, učitajmo naše podatke i pogledajmo ih:

Iz panda import read_csv, DataFrame iz sklearn.neighbors import KNeighborsRegressor iz sklearn.linear_model import LinearRegression, LogisticRegression iz sklearn.svm import SVR iz sklearn.ensemble import RandomForestRegressor iz sklearn. /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Sada da vidimo da li su neki atributi povezani. Ovo se može uraditi izračunavanjem koeficijenata korelacije za sve kolone. Kako to učiniti opisano je u prethodnom članku:

dataset.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0,000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0,000000e+00 0.889431 0.895785
X6 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 1.000000 0,000000e+00 0,000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0,000000e+00 -1.079129e-16 0,000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Kao što možete vidjeti iz naše matrice, sljedeće kolone koreliraju jedna s drugom (vrijednost koeficijenta korelacije je veća od 95%):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
Sada odaberimo koje kolone naših parova možemo ukloniti iz našeg izbora. Da bismo to uradili, u svakom paru biramo kolone koje imaju veći uticaj na predviđene vrednosti Y1 i Y2 i ostavite ih, a ostale izbrišite.
Kao što vidite, uključene su matrice sa koeficijentima korelacije y1 ,y2 više vrijednosti render X2 i X5 nego X1 i X4, tako da možemo ukloniti posljednje stupce koje možemo.

Skup podataka = dataset.drop(["X1","X4"], axis=1) dataset.head()
Osim toga, može se vidjeti da su polja Y1 i Y2 veoma blisko koreliraju jedno s drugim. Ali, pošto moramo da predvidimo obe vrednosti, ostavljamo ih „kao što jesu“.

Izbor modela

Odvojite vrijednosti prognoze iz našeg uzorka:

Trg = skup podataka[["Y1","Y2"]] trn = skup podataka.drop(["Y1","Y2"], os=1)
Nakon obrade podataka, možete nastaviti sa izradom modela. Za izradu modela koristit ćemo sljedeće metode:

Teoriju o ovim metodama možete pročitati u okviru predavanja K.V. Vorontsova o mašinskom učenju.
Procijenit ćemo korištenjem koeficijenta determinacije ( R-kvadrat). Ovaj koeficijent definira se kako slijedi:

Gdje je uvjetna varijansa zavisne varijable at po faktoru X.
Koeficijent uzima vrijednost na intervalu i što je bliži 1, to je jača zavisnost.
Pa, sada možete ići direktno na izradu modela i odabir modela. Stavimo sve naše modele na jednu listu radi pogodnosti dalje analize:

Models=
Dakle, modeli su spremni, sada ćemo naše originalne podatke podijeliti u 2 poduzorka: test i obrazovni. Oni koji su čitali moje prethodne članke znaju da se to može učiniti pomoću funkcije train_test_split() iz paketa scikit-learn:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0,4)
Sada, pošto trebamo predvidjeti 2 parametra, moramo napraviti regresiju za svaki od njih. Osim toga, za dalju analizu možete snimiti rezultate dobijene u privremenom DataFrame. Možete to učiniti ovako:

#kreirajte privremene strukture TestModels = DataFrame() tmp = () #za svaki model sa liste za model u modelima: #dobite naziv modela m = str(model) tmp["Model"] = m[:m.index( "( ")] #za svaki stupac skupa rezultata za i u xrange(Ytrn.shape): #obučite model model.fit(Xtrn, Ytrn[:,i]) #izračunajte koeficijent determinacije tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #write podatke i konačni DataFrame TestModels = TestModels.append() #napravi indeks prema nazivu modela TestModels.set_index ("Model", inplace= true)
Kao što možete vidjeti iz koda iznad, funkcija r2_score() se koristi za izračunavanje koeficijenta.
Dakle, podaci za analizu su primljeni. Hajde sada da napravimo grafikone i vidimo koji model je pokazao najbolji rezultat:

Fig, axes = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="(!LANG:R2_Y1)") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Analiza rezultata i zaključci

Iz gornjih grafikona možemo zaključiti da se ova metoda bolje nosila sa zadatkom od ostalih. Random Forest(slučajna šuma). Njegovi koeficijenti determinacije su veći od ostalih u obje varijable:
Za dalju analizu, hajde da ponovo obučimo naš model:

Model = modelsmodel.fit(Xtrn, Ytrn)
Pri detaljnijem razmatranju može se postaviti pitanje zašto je zavisni uzorak podijeljen prošli put Ytrn na varijable (po kolonama), a sada to ne radimo.
Činjenica je da neke metode, kao npr RandomForestRegressor, može raditi s nekoliko prediktivnih varijabli, dok druge (npr SVR) može raditi samo sa jednom varijablom. Stoga smo u prethodnoj obuci koristili particiju po kolonama kako bismo izbjegli greške u procesu izgradnje nekih modela.
Odabir modela je, naravno, dobar, ali bi također bilo lijepo imati informaciju o tome kako će svaki faktor utjecati na predviđenu vrijednost. Da biste to učinili, model ima svojstvo značajka_važnosti_.
Pomoću njega možete vidjeti težinu svakog faktora u konačnim modelima:

Model.feature_importances_
niz([ 0,40717901, 0,11394948, 0,34984766, 0,00751686, 0,09158358,
0.02992342])

U našem slučaju se vidi da ukupna visina i površina najviše utiču na opterećenje grijanja i hlađenja. Njihov ukupan doprinos prediktivnom modelu iznosi oko 72%.
Također treba napomenuti da se prema gornjoj shemi može vidjeti utjecaj svakog faktora posebno na grijanje i posebno na hlađenje, ali pošto su ovi faktori međusobno usko povezani (), donijeli smo opći zaključak o oba njih, što je gore napisano.

Zaključak

U članku sam pokušao prikazati glavne faze u regresiona analiza podatke sa Python-om i analitičkim paketima pande i scikit-learn.
Treba napomenuti da je skup podataka posebno odabran na način da bude što formaliziraniji i primarna obrada ulazni podaci bi bili minimalni. Po mom mišljenju, članak će biti koristan onima koji tek kreću u analizu podataka, kao i onima koji imaju dobru teorijsku osnovu, ali biraju alate za rad.