Biografije Karakteristike Analiza

Rješenje najmanjih kvadrata. OLS u slučaju linearnog modela

Primjer.

Eksperimentalni podaci o vrijednostima varijabli X I at date su u tabeli.

Kao rezultat njihovog poravnanja, dobija se funkcija

Koristeći metoda najmanjih kvadrata , aproksimira ove podatke linearnom zavisnošću y=ax+b(pronaći parametre A I b). Saznajte koja od dvije linije bolje (u smislu metode najmanjih kvadrata) poravnava eksperimentalne podatke. Napravite crtež.

Suština metode najmanjih kvadrata (LSM).

Zadatak je pronaći koeficijente linearne zavisnosti na kojima je funkcija dvije varijable A I b prihvata najmanju vrijednost. Odnosno, dato A I b zbir kvadrata odstupanja eksperimentalnih podataka od pronađene prave će biti najmanji. Ovo je cijela poenta metode najmanjih kvadrata.

Dakle, rješavanje primjera se svodi na pronalaženje ekstrema funkcije dvije varijable.

Izvođenje formula za pronalaženje koeficijenata.

Sastavlja se i rješava sistem dvije jednačine sa dvije nepoznate. Pronalaženje parcijalnih izvoda funkcije po varijablama A I b, izjednačavamo ove izvode sa nulom.

Rezultirajući sistem jednačina rješavamo bilo kojom metodom (npr metodom supstitucije ili Cramerova metoda) i dobiti formule za pronalaženje koeficijenata metodom najmanjih kvadrata (LSM).

Dato A I b funkcija uzima najmanju vrijednost. Dokaz ove činjenice je dat ispod u tekstu na kraju stranice.

To je cijela metoda najmanjih kvadrata. Formula za pronalaženje parametra a sadrži sume ,,, i parametar n- količina eksperimentalnih podataka. Preporučujemo da se vrijednosti ovih iznosa izračunaju zasebno. Koeficijent b pronađeno nakon izračuna a.

Vrijeme je da se prisjetimo originalnog primjera.

Rješenje.

U našem primjeru n=5. Ispunjavamo tablicu radi praktičnosti izračunavanja iznosa koji su uključeni u formule potrebnih koeficijenata.

Vrijednosti u četvrtom redu tabele dobijaju se množenjem vrijednosti 2. retka sa vrijednostima 3. reda za svaki broj i.

Vrijednosti u petom redu tabele dobijaju se kvadriranjem vrijednosti u 2. redu za svaki broj i.

Vrijednosti u posljednjoj koloni tabele su zbroji vrijednosti u redovima.

Za pronalaženje koeficijenata koristimo formule metode najmanjih kvadrata A I b. U njih zamjenjujemo odgovarajuće vrijednosti iz posljednje kolone tabele:

dakle, y = 0,165x+2,184- željena aproksimirajuća prava linija.

Ostaje da saznamo koja od linija y = 0,165x+2,184 ili bolje aproksimira originalne podatke, odnosno pravi procjenu metodom najmanjih kvadrata.

Procjena greške metode najmanjih kvadrata.

Da biste to učinili, morate izračunati zbir kvadrata odstupanja originalnih podataka od ovih linija I , manja vrijednost odgovara liniji koja bolje aproksimira originalne podatke u smislu metode najmanjih kvadrata.

Od , onda ravno y = 0,165x+2,184 bolje aproksimira originalne podatke.

Grafička ilustracija metode najmanjih kvadrata (LS).

Sve je jasno vidljivo na grafikonima. Crvena linija je pronađena ravna linija y = 0,165x+2,184, plava linija je , ružičaste tačke su originalni podaci.

U praksi, prilikom modeliranja različitih procesa - posebno ekonomskih, fizičkih, tehničkih, društvenih - široko se koristi jedna ili ona metoda izračunavanja približnih vrijednosti funkcija iz njihovih poznatih vrijednosti u određenim fiksnim točkama.

Ova vrsta problema aproksimacije funkcije često se javlja:

    prilikom konstruiranja približnih formula za izračunavanje vrijednosti karakterističnih veličina procesa koji se proučava pomoću tabličnih podataka dobivenih kao rezultat eksperimenta;

    u numeričkoj integraciji, diferencijaciji, rješenju diferencijalne jednadžbe itd.;

    ako je potrebno, izračunajte vrijednosti funkcija u srednjim točkama razmatranog intervala;

    pri određivanju vrijednosti karakterističnih veličina procesa izvan razmatranog intervala, posebno kod prognoziranja.

Ako za modeliranje određenog procesa određenog tablicom konstruiramo funkciju koja približno opisuje ovaj proces na temelju metode najmanjih kvadrata, ona će se zvati aproksimirajuća funkcija (regresija), a sam zadatak konstruiranja aproksimirajućih funkcija će se zvati problem aproksimacije.

Ovaj članak govori o mogućnostima MS Excel paketa za rješavanje ove vrste problema, osim toga daje metode i tehnike za konstruiranje (kreiranje) regresija za tabelarne funkcije (što je osnova regresione analize).

Excel ima dvije opcije za pravljenje regresije.

    Dodavanje odabranih regresija ( linije trenda- linije trenda) u dijagram izgrađen na osnovu tabele podataka za karakteristike procesa koji se proučava (dostupno samo ako postoji konstruisani dijagram);

    Koristeći ugrađene statističke funkcije Excel radnog lista, što vam omogućava da dobijete regresije (linije trenda) direktno iz izvorne tabele podataka.

Dodavanje linija trenda grafikonu

Za tabelu podataka koja opisuje proces i predstavljena je dijagramom, Excel ima efikasan alat za analizu regresije koji vam omogućava:

    izgraditi na osnovu metode najmanjih kvadrata i dodati pet dijagramu vrste regresija, koji modeliraju proces koji se proučava sa različitim stepenom tačnosti;

    dodati konstruisanu jednadžbu regresije dijagramu;

    odrediti stepen korespondencije odabrane regresije sa podacima prikazanim na grafikonu.

Na osnovu podataka grafikona, Excel vam omogućava da dobijete linearne, polinomske, logaritamske, stepenaste, eksponencijalne tipove regresije, koje su određene jednadžbom:

y = y(x)

gdje je x nezavisna varijabla koja često uzima vrijednosti niza prirodnih brojeva (1; 2; 3; ...) i proizvodi, na primjer, odbrojavanje vremena procesa koji se proučava (karakteristike).

1 . Linearna regresija je dobra za modeliranje karakteristika čije se vrijednosti povećavaju ili smanjuju konstantnom brzinom. Ovo je najjednostavniji model za konstruisanje za proces koji se proučava. Konstruiše se u skladu sa jednačinom:

y = mx + b

gdje je m tangenta ugla nagiba linearna regresija do ose apscise; b - koordinata tačke preseka linearne regresije sa ordinatnom osom.

2 . Polinomska linija trenda korisna je za opisivanje karakteristika koje imaju nekoliko različitih ekstrema (maksimuma i minimuma). Izbor stepena polinoma određen je brojem ekstrema ispitivane karakteristike. Dakle, polinom drugog stepena može dobro opisati proces koji ima samo jedan maksimum ili minimum; polinom trećeg stepena - ne više od dva ekstrema; polinom četvrtog stepena - ne više od tri ekstrema, itd.

U ovom slučaju, linija trenda se konstruiše u skladu sa jednadžbom:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

gdje su koeficijenti c0, c1, c2,... c6 konstante čije se vrijednosti određuju tokom izgradnje.

3 . Logaritamska linija trenda se uspješno koristi pri modeliranju karakteristika čije se vrijednosti u početku brzo mijenjaju, a zatim se postupno stabiliziraju.

y = c ln(x) + b

4 . Linija trenda po stepenu daje dobre rezultate ako vrijednosti odnosa koji se proučavaju karakterizira stalna promjena stope rasta. Primjer takve zavisnosti je graf jednoliko ubrzanog kretanja automobila. Ako podaci sadrže nulu ili negativne vrijednosti, ne možete koristiti liniju trenda snage.

Konstruisano u skladu sa jednačinom:

y = c xb

gdje su koeficijenti b, c konstante.

5 . Eksponencijalnu liniju trenda treba koristiti kada se stopa promjene podataka kontinuirano povećava. Za podatke koji sadrže nulte ili negativne vrijednosti, ova vrsta aproksimacije također nije primjenjiva.

Konstruisano u skladu sa jednačinom:

y = c ebx

gdje su koeficijenti b, c konstante.

Prilikom odabira linije trenda, Excel automatski izračunava vrijednost R2, koja karakterizira pouzdanost aproksimacije: što je vrijednost R2 bliža jedinici, to pouzdanije linija trenda aproksimira proces koji se proučava. Ako je potrebno, vrijednost R2 se uvijek može prikazati na grafikonu.

Određeno formulom:

Da dodate liniju trenda seriji podataka:

    aktivirajte grafikon na osnovu niza podataka, tj. kliknite unutar područja grafikona. Stavka Dijagram će se pojaviti u glavnom meniju;

    nakon klika na ovu stavku, na ekranu će se pojaviti meni u kojem treba izabrati komandu Dodaj liniju trenda.

Iste radnje se lako mogu implementirati pomicanjem pokazivača miša preko grafa koji odgovara jednoj od serija podataka i desnim klikom; U kontekstualnom meniju koji se pojavi izaberite naredbu Dodaj liniju trenda. Dijalog Trendline će se pojaviti na ekranu sa otvorenom karticom Type (Slika 1).

Nakon ovoga trebate:

Odaberite željeni tip linije trenda na kartici Tip (Linearni tip je odabran prema zadanim postavkama). Za tip polinoma, u polju Stepen navedite stepen izabranog polinoma.

1 . Polje Izgrađene serije navodi sve serije podataka u dotičnom grafikonu. Da biste dodali liniju trenda određenoj seriji podataka, odaberite njeno ime u polju Izgrađena serija.

Ako je potrebno, odlaskom na karticu Parameters (Slika 2), možete podesiti sljedeće parametre za liniju trenda:

    promijenite naziv linije trenda u polju Naziv aproksimativne (izglađene) krive.

    podesite broj perioda (unaprijed ili unazad) za prognozu u polju Prognoza;

    prikazati jednadžbu linije trenda u oblasti dijagrama, za koju treba da omogućite potvrdni okvir za prikaz jednačine na dijagramu;

    prikažite vrijednost pouzdanosti aproksimacije R2 u području dijagrama, za šta biste trebali omogućiti potvrdni okvir Postavi vrijednost pouzdanosti aproksimacije na dijagram (R^2);

    postavite tačku preseka linije trenda sa Y osom, za koju treba da omogućite checkbox za presek krive sa Y osom u tački;

    Kliknite na dugme OK da zatvorite dijaloški okvir.

Da biste počeli uređivati ​​već nacrtanu liniju trenda, postoje tri načina:

    koristite naredbu Odabrana linija trenda iz izbornika Format, nakon što ste prethodno odabrali liniju trenda;

    izaberite komandu Format linije trenda iz kontekstnog menija, koja se poziva desnim klikom na liniju trenda;

    dvaput kliknite na liniju trenda.

Na ekranu će se pojaviti dijaloški okvir Trend Line Format (slika 3), koji sadrži tri kartice: Pogled, Tip, Parametri, a sadržaj posljednje dvije potpuno se poklapa sa sličnim karticama dijaloga Trend Line (Sl. 1). -2). Na kartici Prikaz možete postaviti vrstu linije, njenu boju i debljinu.

Za brisanje linije trenda koja je već nacrtana, odaberite liniju trenda koju želite izbrisati i pritisnite tipku Delete.

Prednosti razmatranog alata regresione analize su:

    relativna lakoća konstruisanja linije trenda na grafikonima bez kreiranja tabele podataka za to;

    prilično široka lista tipova predloženih linija trenda, a ova lista uključuje najčešće korištene vrste regresije;

    sposobnost predviđanja ponašanja procesa koji se proučava na bilo kom proizvoljnom nivou (unutar zdrav razum) broj koraka naprijed i nazad;

    sposobnost dobijanja jednadžbe linije trenda u analitičkom obliku;

    mogućnost, ako je potrebno, dobijanja procjene pouzdanosti aproksimacije.

Nedostaci uključuju sljedeće:

    izgradnja linije trenda se izvodi samo ako postoji dijagram izgrađen na nizu podataka;

    proces generiranja nizova podataka za karakteristiku koja se proučava na temelju jednadžbi linije trenda dobivenih za nju je donekle pretrpan: potrebne regresijske jednadžbe se ažuriraju sa svakom promjenom vrijednosti izvorne serije podataka, ali samo unutar područja grafikona , dok niz podataka formiran na osnovu trenda stare jednačine linije ostaje nepromijenjen;

    U izveštajima zaokretnog grafikona, promena prikaza grafikona ili povezanog izveštaja izvedene tabele ne čuva postojeće linije trenda, što znači da pre nego što nacrtate linije trenda ili na drugi način formatirate izveštaj zaokretnog grafikona, trebalo bi da se uverite da izgled izveštaja ispunjava zahtevane zahteve.

Linije trenda se mogu koristiti za dopunu nizova podataka predstavljenih na grafikonima kao što su grafikoni, histogrami, ravni nestandardizirani dijagrami područja, trakasti grafikoni, dijagrami raspršivanja, mjehurasti grafikoni i berzanski grafikoni.

Ne možete dodati linije trenda serijama podataka u 3D, normaliziranim, radarskim, tortnim i krofnim grafikonima.

Korištenje ugrađenih funkcija programa Excel

Excel takođe ima alat za regresijsku analizu za crtanje linija trenda izvan područja grafikona. Postoji veliki broj statističkih funkcija radnog lista koje možete koristiti u tu svrhu, ali sve vam dozvoljavaju samo da izgradite linearne ili eksponencijalne regresije.

Excel ima nekoliko funkcija za konstruiranje linearne regresije, posebno:

    TREND;

  • KOSINA i REZ.

Kao i nekoliko funkcija za konstruiranje eksponencijalne linije trenda, posebno:

    LGRFPRIBL.

Treba napomenuti da su tehnike za konstruisanje regresija korišćenjem funkcija TREND i RAST skoro iste. Isto se može reći i za par funkcija LINEST i LGRFPRIBL. Za ove četiri funkcije, kreiranje tablice vrijednosti koristi Excel funkcije kao što su formule niza, što donekle otežava proces izgradnje regresija. Napomenimo i to da se konstrukcija linearne regresije, po našem mišljenju, najlakše ostvaruje korištenjem funkcija SLOPE i INTERCEPT, pri čemu prva određuje nagib linearne regresije, a druga segment koji se presječe regresijom na y osi.

Prednosti ugrađenog funkcijskog alata za regresionu analizu su:

    prilično jednostavan, ujednačen proces generisanja serije podataka karakteristike koja se proučava za sve ugrađene statističke funkcije koje definiraju linije trenda;

    standardna metodologija za konstruisanje linija trenda na osnovu generisanih serija podataka;

    sposobnost predviđanja ponašanja procesa koji se proučava na potreban iznos korake napred ili nazad.

Nedostaci uključuju činjenicu da Excel nema ugrađene funkcije za kreiranje drugih (osim linearnih i eksponencijalnih) tipova linija trenda. Ova okolnost često ne dopušta odabir dovoljno preciznog modela procesa koji se proučava, kao i dobijanje prognoza koje su bliske stvarnosti. Osim toga, kada se koriste funkcije TREND i GROWTH, jednadžbe linija trenda nisu poznate.

Treba napomenuti da autori nisu imali za cilj da predstave tok regresione analize sa bilo kojim stepenom potpunosti. Njegov glavni zadatak je da na konkretnim primjerima pokaže mogućnosti Excel paketa pri rješavanju aproksimacijskih problema; demonstrirati koje efikasne alate Excel ima za pravljenje regresija i predviđanja; ilustruju kako takve probleme može relativno lako riješiti čak i korisnik koji nema opsežno znanje o regresijskoj analizi.

Primjeri rješavanja konkretnih problema

Pogledajmo rješavanje konkretnih problema pomoću navedenih Excel alata.

Problem 1

Sa tabelom podataka o dobiti autotransportnog preduzeća za 1995-2002. potrebno je da uradite sledeće:

    Napravite dijagram.

    Dodajte linearne i polinomske (kvadratne i kubične) linije trenda na grafikon.

    Koristeći jednačine linije trenda, pribavite tabelarne podatke o dobiti preduzeća za svaku liniju trenda za 1995-2004.

    Napravite prognozu dobiti preduzeća za 2003. i 2004. godinu.

Rješenje problema

    U opseg ćelija A4:C11 Excel radnog lista unesite radni list prikazan na sl. 4.

    Nakon odabira raspona ćelija B4:C11, gradimo dijagram.

    Aktiviramo konstruisani dijagram i, prema gore opisanoj metodi, nakon odabira tipa linije trenda u dijaloškom okviru Trend Linija (vidi sliku 1), naizmenično dodajemo linearne, kvadratne i kubične linije trenda dijagramu. U istom dijaloškom okviru otvorite karticu Parametri (pogledajte sliku 2), u polje Naziv aproksimirajuće (izglađene) krive unesite naziv trenda koji se dodaje, a u polje Forecast forward for: periods postavite vrijednost 2, budući da je planirana prognoza dobiti za dvije godine unaprijed. Za prikaz jednačine regresije i vrijednosti pouzdanosti aproksimacije R2 u području dijagrama, omogućite potvrdne okvire za prikaz jednačine na ekranu i postavite vrijednost pouzdanosti aproksimacije (R^2) na dijagram. Za bolju vizuelnu percepciju, menjamo vrstu, boju i debljinu konstruisanih linija trenda, za šta koristimo karticu View dijaloškog okvira Trend Line Format (vidi sliku 3). Rezultirajući dijagram sa dodanim linijama trenda prikazan je na Sl. 5.

    Dobiti tabelarne podatke o dobiti preduzeća za svaku liniju trenda za 1995-2004. Koristimo jednadžbe linije trenda predstavljene na Sl. 5. Da biste to učinili, u ćelije raspona D3:F3 unesite tekstualne informacije o tipu odabrane linije trenda: Linearni trend, Kvadratični trend, Kubni trend. Zatim unesite formulu linearne regresije u ćeliju D4 i, koristeći marker za popunjavanje, kopirajte ovu formulu s relativnim referencama na raspon ćelija D5:D13. Treba napomenuti da svaka ćelija sa formulom linearne regresije iz opsega ćelija D4:D13 ima kao argument odgovarajuću ćeliju iz opsega A4:A13. Slično, za kvadratnu regresiju popunite raspon ćelija E4:E13, a za kubičnu regresiju popunite raspon ćelija F4:F13. Tako je napravljena prognoza dobiti preduzeća za 2003. i 2004. godinu. koristeći tri trenda. Dobivena tablica vrijednosti prikazana je na Sl. 6.

Problem 2

    Napravite dijagram.

    Dodajte logaritamske, stručne i eksponencijalne linije trenda na grafikon.

    Izvesti jednadžbe dobijenih linija trenda, kao i vrijednosti pouzdanosti aproksimacije R2 za svaku od njih.

    Koristeći jednačine linije trenda, dobiti tabelarne podatke o dobiti preduzeća za svaku liniju trenda za 1995-2002.

    Napravite prognozu dobiti kompanije za 2003. i 2004. koristeći ove trendove.

Rješenje problema

Prateći metodologiju datu u rješavanju problema 1, dobijamo dijagram sa dodanim logaritamskim, potencijskim i eksponencijalnim linijama trenda (slika 7). Zatim, koristeći dobijene jednadžbe linije trenda, popunjavamo tabelu vrijednosti za profit preduzeća, uključujući i predviđene vrijednosti za 2003. i 2004. godinu. (Sl. 8).

Na sl. 5 i sl. može se vidjeti da model sa logaritamskim trendom odgovara najnižoj vrijednosti pouzdanosti aproksimacije

R2 = 0,8659

Najveće vrijednosti R2 odgovaraju modelima sa polinomskim trendom: kvadratni (R2 = 0,9263) i kubični (R2 = 0,933).

Problem 3

Uz tabelu podataka o dobiti autotransportnog preduzeća za 1995-2002, datu u zadatku 1, morate izvršiti sljedeće korake.

    Dobijte serije podataka za linearne i eksponencijalne linije trenda koristeći funkcije TREND i GROW.

    Koristeći funkcije TREND i RAST, napravite prognozu dobiti preduzeća za 2003. i 2004. godinu.

    Konstruirajte dijagram za originalne podatke i rezultirajući niz podataka.

Rješenje problema

Koristimo radni list za zadatak 1 (vidi sliku 4). Počnimo sa TREND funkcije:

    odaberite raspon ćelija D4:D11, koje treba popuniti vrijednostima funkcije TREND koje odgovaraju poznatim podacima o dobiti poduzeća;

    Pozovite komandu Funkcija iz menija Insert. U dijalogu Čarobnjak za funkcije koji se pojavi, izaberite funkciju TREND iz kategorije Statistike, a zatim kliknite na dugme U redu. Ista operacija se može izvršiti klikom na dugme (Insert Function) na standardnoj traci sa alatkama.

    U dijaloškom okviru Argumenti funkcije koji se pojavi unesite opseg ćelija C4:C11 u polje Poznate_vrijednosti_y; u polju Poznate_vrijednosti_x - opseg ćelija B4:B11;

    Da unesena formula postane formula niza, koristite kombinaciju tipki + +.

Formula koju smo uneli u traku sa formulama će izgledati ovako: =(TREND(C4:C11,B4:B11)).

Kao rezultat toga, raspon ćelija D4:D11 je ispunjen odgovarajućim vrijednostima funkcije TREND (slika 9).

Da se napravi prognoza dobiti preduzeća za 2003. i 2004. godinu. potrebno:

    odaberite raspon ćelija D12:D13 u koje će biti unesene vrijednosti predviđene funkcijom TREND.

    pozovite funkciju TREND i u dijaloškom okviru Argumenti funkcije koji se pojavi unesite u polje Poznate_vrijednosti_y - opseg ćelija C4:C11; u polju Poznate_vrijednosti_x - opseg ćelija B4:B11; a u polju Nove_vrijednosti_x - opseg ćelija B12:B13.

    pretvorite ovu formulu u formulu niza koristeći kombinaciju tipki Ctrl + Shift + Enter.

    Unesena formula će izgledati ovako: =(TREND(C4:C11;B4:B11;B12:B13)), a opseg ćelija D12:D13 će biti popunjen predviđenim vrijednostima funkcije TREND (vidi Sl. 9).

Niz podataka se na sličan način popunjava pomoću funkcije GROWTH, koja se koristi u analizi nelinearnih zavisnosti i radi na potpuno isti način kao i njen linearni pandan TREND.

Slika 10 prikazuje tabelu u načinu prikaza formule.

Za početne podatke i dobijene serije podataka, dijagram prikazan na Sl. jedanaest.

Problem 4

Sa tabelom podataka o prijemu zahtjeva za usluge od strane dispečerske službe autotransportnog preduzeća za period od 1. do 11. u tekućem mjesecu, morate izvršiti sljedeće radnje.

    Dobijte niz podataka za linearnu regresiju: ​​korištenjem funkcija SLOPE i INTERCEPT; koristeći funkciju LINEST.

    Dobijte seriju podataka za eksponencijalnu regresiju koristeći LGRFPRIBL funkciju.

    Koristeći navedene funkcije, napravite prognozu o prijemu prijava u dispečersku službu za period od 12. do 14. u tekućem mjesecu.

    Napravite dijagram za originalnu i primljenu seriju podataka.

Rješenje problema

Imajte na umu da, za razliku od funkcija TREND i GROWTH, nijedna od gore navedenih funkcija (SLOPE, INTERCEPT, LINEST, LGRFPRIB) nije regresija. Ove funkcije igraju samo pomoćnu ulogu, određujući potrebne parametre regresije.

Za linearne i eksponencijalne regresije izgrađene pomoću funkcija SLOPE, INTERCEPT, LINEST, LGRFPRIB, izgled njihovih jednačina je uvijek poznat, za razliku od linearnih i eksponencijalnih regresija koje odgovaraju funkcijama TREND i GROWTH.

1 . Izgradimo linearnu regresiju sa jednadžbom:

y = mx+b

koristeći funkcije SLOPE i INTERCEPT, pri čemu je nagib regresije m određen funkcijom SLOPE, a slobodni termin b funkcijom INTERCEPT.

Da bismo to učinili, provodimo sljedeće radnje:

    unesite originalnu tablicu u raspon ćelija A4:B14;

    vrijednost parametra m će biti određena u ćeliji C19. Odaberite funkciju nagiba iz kategorije Statistike; unesite opseg ćelija B4:B14 u polje poznate_vrijednosti_y i raspon ćelija A4:A14 u polje poznate_vrijednosti_x. Formula će biti unesena u ćeliju C19: =SLOPE(B4:B14,A4:A14);

    Sličnom tehnikom određuje se vrijednost parametra b u ćeliji D19. Njegov sadržaj će izgledati ovako: =SEGMENT(B4:B14,A4:A14). Dakle, vrijednosti parametara m i b potrebnih za konstruiranje linearne regresije bit će pohranjene u ćelijama C19, D19;

    Zatim unesite formulu linearne regresije u ćeliju C4 u obliku: =$C*A4+$D. U ovoj formuli ćelije C19 i D19 su napisane sa apsolutnim referencama (adresa ćelije ne bi trebalo da se menja tokom mogućeg kopiranja). Apsolutni referentni znak $ može se otkucati ili sa tastature ili pomoću tastera F4, nakon postavljanja kursora na adresu ćelije. Koristeći ručicu za popunjavanje, kopirajte ovu formulu u raspon ćelija C4:C17. Dobijamo traženu seriju podataka (slika 12). Zbog činjenice da je broj zahtjeva cijeli broj, trebali biste postaviti format broja sa brojem decimalnih mjesta na 0 na kartici Broj prozora Format ćelije.

2 . Sada napravimo linearnu regresiju datu jednadžbom:

y = mx+b

koristeći funkciju LINEST.

Za ovo:

    Unesite funkciju LINEST kao formulu niza u rasponu ćelija C20:D20: =(LINEST(B4:B14,A4:A14)). Kao rezultat, dobijamo vrijednost parametra m u ćeliji C20, a vrijednost parametra b u ćeliji D20;

    unesite formulu u ćeliju D4: =$C*A4+$D;

    kopirajte ovu formulu koristeći marker za popunjavanje u raspon ćelija D4:D17 i dobijte željenu seriju podataka.

3 . Gradimo eksponencijalnu regresiju pomoću jednačine:

pomoću funkcije LGRFPRIBL se izvodi slično:

    U opseg ćelija C21:D21 unosimo funkciju LGRFPRIBL kao formulu niza: =( LGRFPRIBL (B4:B14,A4:A14)). U ovom slučaju, vrijednost parametra m će biti određena u ćeliji C21, a vrijednost parametra b će biti određena u ćeliji D21;

    formula se unosi u ćeliju E4: =$D*$C^A4;

    korišćenjem markera za popunjavanje, ova formula se kopira u opseg ćelija E4:E17, gde će se nalaziti serija podataka za eksponencijalnu regresiju (vidi sliku 12).

Na sl. Slika 13 prikazuje tabelu u kojoj možete vidjeti funkcije koje koristimo sa potrebnim rasponima ćelija, kao i formule.

Magnituda R 2 pozvao koeficijent odlučnosti.

Zadatak konstruisanja regresijske zavisnosti je da se pronađe vektor koeficijenata m modela (1) na kome koeficijent R poprima maksimalnu vrednost.

Za procjenu značaja R koristi se Fišerov F test, izračunat pomoću formule

Gdje n- veličina uzorka (broj eksperimenata);

k je broj koeficijenata modela.

Ako F premašuje neku kritičnu vrijednost za podatke n I k i prihvaćenu pouzdanu vjerovatnoću, tada se vrijednost R smatra značajnom. Tabele kritičnih vrijednosti F date su u priručniku o matematičkoj statistici.

Dakle, značaj R ne određuje samo njegova vrijednost, već i odnos između broja eksperimenata i broja koeficijenata (parametara) modela. Zaista, korelacijski odnos za n=2 za jednostavan linearni model je jednak 1 (jedna prava linija se uvijek može povući kroz 2 tačke na ravni). Međutim, ako su eksperimentalni podaci slučajne varijable, takvoj vrijednosti R treba vjerovati s velikim oprezom. Obično, da bi dobili značajan R i pouzdanu regresiju, oni nastoje osigurati da broj eksperimenata značajno premašuje broj koeficijenata modela (n>k).

Za izradu modela linearne regresije potrebno vam je:

1) pripremiti listu od n redaka i m stupaca koji sadrže eksperimentalne podatke (kolona koja sadrži izlaznu vrijednost Y mora biti prvi ili zadnji na listi); Na primjer, uzmimo podatke iz prethodnog zadatka, dodajući kolonu pod nazivom "Period No.", numerirajte brojeve perioda od 1 do 12. (ovo će biti vrijednosti X)

2) idite na meni Podaci/Analiza podataka/Regresija

Ako nedostaje stavka "Analiza podataka" u meniju "Alati", onda treba da odete na stavku "Dodaci" u istom meniju i označite polje za potvrdu "Paket analize".

3) u dijaloškom okviru "Regresija" postavite:

· interval unosa Y;

· ulazni interval X;

· izlazni interval - gornja lijeva ćelija intervala u koji će biti smješteni rezultati proračuna (preporučljivo je postaviti ih na novi radni list);

4) kliknite na "OK" i analizirajte rezultate.

Ima mnogo namjena jer omogućava približan prikaz datu funkciju drugi su jednostavniji. LSM može biti izuzetno koristan u obradi zapažanja, a aktivno se koristi za procjenu nekih veličina na osnovu rezultata mjerenja drugih koji sadrže slučajne greške. U ovom članku ćete naučiti kako implementirati izračune najmanjih kvadrata u Excelu.

Iskazivanje problema na konkretnom primjeru

Pretpostavimo da postoje dva indikatora X i Y. Štaviše, Y zavisi od X. Budući da nas OLS zanima sa stanovišta regresione analize (u Excelu se njegove metode implementiraju pomoću ugrađenih funkcija), treba odmah preći na razmatranje konkretan problem.

Dakle, neka bude X trgovačko područje trgovina prehrambenih proizvoda, mjereno u kvadratnih metara, a Y je godišnji promet, određen u milionima rubalja.

Potrebno je napraviti prognozu koliki će promet (Y) trgovina imati ako ima ovaj ili onaj maloprodajni prostor. Očigledno, funkcija Y = f (X) raste, jer hipermarket prodaje više robe od tezge.

Nekoliko riječi o ispravnosti početnih podataka korištenih za predviđanje

Recimo da imamo tabelu napravljenu koristeći podatke za n prodavnica.

Prema matematičke statistike, rezultati će biti manje-više tačni ako se ispitaju podaci o najmanje 5-6 objekata. Osim toga, "anomalni" rezultati se ne mogu koristiti. Konkretno, elitni mali butik može imati promet koji je nekoliko puta veći od prometa velikih maloprodajnih objekata klase „masmarket“.

Suština metode

Podaci tabele mogu biti prikazani Kartezijanska ravan u obliku tačaka M 1 (x 1, y 1), ... M n (x n, y n). Sada će se rješenje problema svesti na izbor aproksimirajuće funkcije y = f (x), koja ima graf koji prolazi što bliže tačkama M 1, M 2, .. M n.

Naravno, možete koristiti polinom visok stepen, ali ova opcija nije samo teška za implementaciju, već je i jednostavno netočna, jer neće odražavati glavni trend koji treba otkriti. Najrazumnije rješenje je traženje prave linije y = ax + b, koja najbolje aproksimira eksperimentalne podatke, tačnije, koeficijente a i b.

Procjena tačnosti

Uz bilo kakvu aproksimaciju, procjena njegove tačnosti je od posebne važnosti. Označimo sa e i razliku (odstupanje) između funkcionalne i eksperimentalne vrijednosti za tačku x i, tj. e i = y i - f (x i).

Očigledno, da biste procijenili tačnost aproksimacije, možete koristiti zbir odstupanja, odnosno, kada birate pravu liniju za približni prikaz zavisnosti X od Y, treba dati prednost onoj s najmanjom vrijednošću zbir e i u svim tačkama koje se razmatraju. Međutim, nije sve tako jednostavno, jer će uz pozitivne devijacije biti i negativnih.

Problem se može riješiti korištenjem modula odstupanja ili njihovih kvadrata. Posljednja metoda je dobila najviše široku upotrebu. Koristi se u mnogim oblastima, uključujući regresijsku analizu (implementirana u Excelu pomoću dvije ugrađene funkcije), i odavno je dokazala svoju učinkovitost.

Metoda najmanjeg kvadrata

Excel, kao što znate, ima ugrađenu funkciju AutoSum koja vam omogućava da izračunate vrijednosti svih vrijednosti koje se nalaze u odabranom rasponu. Dakle, ništa nas neće spriječiti da izračunamo vrijednost izraza (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

U matematičkoj notaciji ovo izgleda ovako:

Pošto je prvobitno donesena odluka da se aproksimira pomoću prave linije, imamo:

Dakle, zadatak pronalaženja prave linije koja najbolje opisuje specifičnu zavisnost veličina X i Y svodi se na izračunavanje minimuma funkcije dvije varijable:

Da biste to učinili, morate parcijalne derivacije u odnosu na nove varijable a i b izjednačiti sa nulom, i riješiti primitivni sistem koji se sastoji od dvije jednadžbe sa 2 nepoznate forme:

Nakon nekoliko jednostavnih transformacija, uključujući dijeljenje sa 2 i manipulaciju suma, dobijamo:

Rješavajući ga, na primjer, koristeći Cramerovu metodu, dobijamo stacionarna tačka sa određenim koeficijentima a * i b *. Ovo je minimum, odnosno za predviđanje koliki će promet trgovina imati određeno područje, prava linija y = a * x + b * je pogodna, što je regresijski model za dotični primjer. Naravno da ti neće dozvoliti da nađeš tačan rezultat, ali će vam pomoći da steknete ideju o tome hoće li se kupovina određenog područja na kredit u trgovini isplatiti.

Kako implementirati najmanje kvadrate u Excelu

Excel ima funkciju za izračunavanje vrijednosti pomoću najmanjih kvadrata. Ona ima sljedeći pogled: “TREND” (poznate Y vrijednosti; poznate X vrijednosti; nove X vrijednosti; konstanta). Primijenimo formulu za izračunavanje OLS-a u Excelu na našu tablicu.

Da biste to učinili, unesite znak “=” u ćeliju u kojoj bi trebao biti prikazan rezultat izračuna primjenom metode najmanjih kvadrata u Excelu i odaberite funkciju “TREND”. U prozoru koji se otvori popunite odgovarajuća polja, naglašavajući:

  • raspon poznatih vrijednosti za Y (in u ovom slučaju podaci za trgovinski promet);
  • raspon x 1 , …x n , odnosno veličina maloprodajnog prostora;
  • i poznati i nepoznate vrijednosti x, za koje trebate saznati veličinu prometa (za informacije o njihovoj lokaciji na radnom listu, pogledajte dolje).

Dodatno, formula sadrži logičku varijablu “Const”. Ako u odgovarajuće polje unesete 1, to će značiti da trebate izvršiti proračune, pod pretpostavkom da je b = 0.

Ako trebate saznati prognozu za više od jedne vrijednosti x, onda nakon unosa formule ne biste trebali pritisnuti "Enter", već morate upisati kombinaciju "Shift" + "Control" + "Enter" na tastaturi.

Neke karakteristike

Regresiona analiza može biti dostupna čak i lutkama. Excel formula za predviđanje vrijednosti niza nepoznatih varijabli - "TREND" - mogu koristiti čak i oni koji nikada nisu čuli za metodu najmanjih kvadrata. Dovoljno je samo znati neke od karakteristika njegovog rada. posebno:

  • Ako raspoređujete raspon poznatih vrijednosti varijable y u jedan red ili kolonu, tada svaki red (kolona) sa poznate vrednosti x će program tretirati kao zasebna varijabla.
  • Ako prozor TREND ne pokazuje raspon sa poznatim x, onda ako se funkcija koristi u Excel programće ga tretirati kao niz koji se sastoji od cijelih brojeva, čiji broj odgovara rasponu sa datim vrijednostima varijable y.
  • Za izlaz niza "predviđenih" vrijednosti, izraz za izračunavanje trenda se mora unijeti kao formula niza.
  • Ako nove vrijednosti x nisu specificirane, funkcija TREND ih smatra jednakim poznatim. Ako nisu specificirani, tada se niz 1 uzima kao argument; 2; 3; 4;…, što je srazmerno opsegu sa već navedenim parametrima y.
  • Raspon koji sadrži nove vrijednosti x mora se sastojati od istih ili više redove ili kolone kao opseg sa datim y vrijednostima. Drugim riječima, mora biti proporcionalan nezavisnim varijablama.
  • Niz sa poznatim x vrijednostima može sadržavati više varijabli. Međutim, ako mi pričamo o tome oko samo jednog, tada je potrebno da opsezi sa datim vrijednostima x i y budu proporcionalni. U slučaju više varijabli, potrebno je da raspon sa datim y vrijednostima stane u jednu kolonu ili jedan red.

Funkcija PREDICTION

Implementirano korištenjem nekoliko funkcija. Jedna od njih se zove “PREDIKCIJA”. Sličan je "TREND", tj. daje rezultat proračuna metodom najmanjih kvadrata. Međutim, samo za jedan X, za koji je vrijednost Y nepoznata.

Sada znate formule u Excelu za lutke koje vam omogućavaju da predvidite buduću vrijednost određenog indikatora prema linearnom trendu.

Široko se koristi u ekonometriji u obliku jasne ekonomske interpretacije njenih parametara.

Linearna regresija se svodi na pronalaženje jednačine oblika

ili

Jednačina oblika dozvoljava za date vrijednosti parametar X imaju teorijske vrijednosti rezultantne karakteristike, zamjenjujući stvarne vrijednosti faktora u nju X.

Konstrukcija linearne regresije svodi se na procjenu njenih parametara - A I V. Procjene parametara linearne regresije mogu se pronaći korištenjem različitih metoda.

Klasičan pristup procjeni parametara linearne regresije temelji se na metoda najmanjih kvadrata(MNC).

Metoda najmanjih kvadrata nam omogućava da dobijemo takve procjene parametara A I V, pri čemu je zbir kvadrata odstupanja stvarnih vrijednosti rezultantne karakteristike (y) od izračunatog (teorijskog) minimum:

Da biste pronašli minimum funkcije, morate izračunati parcijalne izvode za svaki od parametara A I b i postavite ih jednakima nuli.

Označimo kroz S, onda:

Transformacijom formule dobijamo sledeći sistem normalne jednačine za procjenu parametara A I V:

Rješavanje sistema normalnih jednačina (3.5) bilo metodom sekvencijalna eliminacija varijabli, ili metodom determinanti, nalazimo tražene procjene parametara A I V.

Parametar V naziva se koeficijent regresije. Njegova vrijednost pokazuje prosječnu promjenu rezultata sa promjenom faktora za jednu jedinicu.

Jednačina regresije je uvijek dopunjena indikatorom bliskosti veze. Kada se koristi linearna regresija, takav pokazatelj je koeficijent linearne korelacije. Postoje različite modifikacije formule linearni koeficijent korelacije. Neki od njih su dati u nastavku:

Kao što je poznato, koeficijent linearne korelacije je u granicama: -1 1.

Za procjenu kvaliteta selekcije linearna funkcija izračunava se kvadrat

Koeficijent linearne korelacije tzv koeficijent odlučnosti. Koeficijent determinacije karakterizira udio varijanse rezultirajuće karakteristike y, objašnjeno regresijom, u totalna varijansa rezultujući znak:

Shodno tome, vrijednost 1 karakterizira udio varijanse y, uzrokovane uticajem drugih faktora koji nisu uzeti u obzir u modelu.

Pitanja za samokontrolu

1. Suština metode najmanjih kvadrata?

2. Koliko varijabli pruža parna regresija?

3. Koji koeficijent određuje bliskost veze između promjena?

4. U kojim granicama se utvrđuje koeficijent determinacije?

5. Procjena parametra b u korelaciono-regresionoj analizi?

1. Christopher Dougherty. Uvod u ekonometriju. - M.: INFRA - M, 2001 - 402 str.

2. S.A. Borodich. Ekonometrija. Minsk DOO “Novo znanje” 2001.


3. R.U. Rakhmetova Kratki kurs u ekonometriji. Tutorial. Almaty. 2004. -78p.

4. I.I. Eliseeva Econometrics. - M.: “Finansije i statistika”, 2002

5. Mjesečni informativno-analitički časopis.

Nelinearni ekonomski modeli. Modeli nelinearne regresije. Transformacija varijabli.

Nelinearno ekonomski modeli..

Transformacija varijabli.

Koeficijent elastičnosti.

Ako između ekonomske pojave postoje nelinearni odnosi, oni se izražavaju pomoću odgovarajućih nelinearne funkcije: na primjer, jednakostranična hiperbola , parabole drugog stepena i sl.

Postoje dvije klase nelinearnih regresija:

1. Regresije koje su nelinearne u odnosu na objašnjavajuće varijable uključene u analizu, ali linearne u odnosu na procijenjene parametre, na primjer:

Polinomi raznih stepeni - , ;

Jednakostranična hiperbola - ;

Semilogaritamska funkcija - .

2. Regresije koje su nelinearne u parametrima koji se procjenjuju, na primjer:

Snaga - ;

Demonstrativna - ;

Eksponencijalno - .

Ukupan zbroj kvadrata odstupanja individualne vrednosti rezultantni znak at od prosječne vrijednosti uzrokovano je uticajem mnogih razloga. Uvjetno podijelimo cijeli niz razloga u dvije grupe: faktor koji se proučava x I drugi faktori.

Ako faktor ne utječe na rezultat, tada je linija regresije na grafu paralelna s osom Oh I

Tada je cjelokupna varijansa rezultirajuće karakteristike posljedica utjecaja drugih faktora i ukupan iznos kvadratna odstupanja će se poklopiti sa ostatkom. Ako drugi faktori ne utiču na rezultat, onda y tied With X funkcionalan i preostali iznos kvadrata je nula. U ovom slučaju, zbir kvadrata odstupanja objašnjenih regresijom je isti kao i ukupni zbir kvadrata.

Budući da ne leže sve tačke korelacionog polja na regresijskoj liniji, njihovo rasipanje se uvek javlja kao rezultat uticaja faktora X, odnosno regresija at By X, i uzrokovane drugim uzrocima (neobjašnjive varijacije). Pogodnost linije regresije za predviđanje zavisi od toga koji deo totalna varijacija sign at objašnjava objašnjenu varijaciju

Očigledno, ako je zbir kvadrata odstupanja zbog regresije veći od preostalog zbira kvadrata, tada je jednadžba regresije statistički značajna i faktor X ima značajan uticaj na rezultat u.

, tj. sa brojem slobode nezavisne varijacije karakteristike. Broj stepeni slobode povezan je sa brojem jedinica populacije n i brojem konstanti koje se iz njega određuju. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od P

Procjena značaja regresione jednačine u cjelini data je korištenjem F-Fišerov kriterijum. U ovom slučaju se postavlja nulta hipoteza da je koeficijent regresije jednak nuli, tj. b = 0, a samim tim i faktor X ne utiče na rezultat u.

Neposrednom izračunavanju F-testa prethodi analiza varijanse. Centralno mjesto u njemu zauzima dekompozicija ukupnog zbira kvadrata odstupanja varijable at od prosječne vrijednosti at na dva dijela - "objašnjeno" i "neobjašnjeno":

- ukupan zbir kvadrata odstupanja;

- zbir kvadrata odstupanja objašnjenih regresijom;

- rezidualni zbir kvadrata odstupanja.

Svaki zbir odstupanja na kvadrat povezan je sa brojem stepeni slobode , tj. sa brojem slobode nezavisne varijacije karakteristike. Broj stepena slobode povezan je sa brojem populacijskih jedinica n i sa brojem konstanti određenim iz njega. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od P moguće potrebno za formiranje date sume kvadrata.

Disperzija po stepenu slobodeD.

F-odnosi (F-test):

Ako je nulta hipoteza tačna, zatim faktorijel i rezidualna varijansa se ne razlikuju jedno od drugog. Za H 0 potrebno je opovrgavanje kako bi disperzija faktora nekoliko puta premašila disperziju ostatka. Engleski statističar Snedekor razvio je tabele kritičnih vrednosti F-odnosi na različitim nivoima značaja Nulta hipoteza I razni brojevi stepena slobode. Vrijednost tabele F-kriterijum je maksimalna vrijednost omjera varijansi koja može nastati u slučaju slučajne divergencije za ovom nivou vjerovatnoća postojanja nulte hipoteze. Izračunata vrijednost F-relacije se smatraju pouzdanim ako je o veće od tabele.

U ovom slučaju se odbacuje nulta hipoteza o nepostojanju veze između znakova i izvodi se zaključak o značaju ovog odnosa: F činjenica > F tabela H 0 je odbijen.

Ako je vrijednost manja od prikazane u tabeli F činjenica ‹, F tabela, tada je vjerovatnoća nulte hipoteze veća od određenog nivoa i ne može se odbaciti bez ozbiljnog rizika od izvođenja pogrešnog zaključka o postojanju veze. U ovom slučaju, jednačina regresije se smatra statistički beznačajnom. Ali on ne odstupa.

Standardna greška koeficijenta regresije

Da bi se procijenila značajnost koeficijenta regresije, njegova vrijednost se upoređuje sa njegovom standardna greška, odnosno utvrđuje se stvarna vrijednost t-Učenički test: koji se zatim poredi sa vrijednost tabele na određenom nivou značaja i broju stepeni slobode ( n- 2).

Standardna greška parametra A:

Značajnost koeficijenta linearne korelacije se provjerava na osnovu veličine greške koeficijent korelacije t r:

Ukupna varijansa osobina X:

Višestruka linearna regresija

Izgradnja modela

Višestruka regresija predstavlja regresiju rezultantnog znaka sa dva i veliki broj faktore, odnosno model forme

Regresija može dati dobar rezultat pri modeliranju, ako se može zanemariti uticaj drugih faktora koji utiču na predmet proučavanja. Ponašanje pojedinih ekonomskih varijabli ne može se kontrolisati, odnosno nije moguće osigurati jednakost svih ostalih uslova za procjenu uticaja jednog faktora koji se proučava. U ovom slučaju treba pokušati identificirati utjecaj drugih faktora tako što ćete ih uvesti u model, tj. konstruirati jednačinu višestruka regresija: y = a+b 1 x 1 +b 2 +…+b p x p + .

Osnovni cilj višestruke regresije je da se izgradi model sa velikim brojem faktora, pri čemu se utvrđuje uticaj svakog od njih posebno, kao i njihov kombinovani uticaj na modelirani indikator. Specifikacija modela uključuje dva niza pitanja: izbor faktora i izbor vrste regresijske jednačine

Metoda najmanjeg kvadrata koristi se za procjenu parametara regresione jednadžbe.
Broj linija (izvorni podaci)

Jedna od metoda za proučavanje stohastičkih odnosa između karakteristika je regresiona analiza.
Regresiona analiza je izvođenje regresione jednadžbe koja se koristi za pronalaženje prosječna vrijednost slučajna varijabla (atribut rezultata) ako je poznata vrijednost druge (ili druge) varijabli (atributa faktora). Uključuje sljedeće korake:

  1. izbor oblika komunikacije (vrsta analitička jednačina regresija);
  2. procjena parametara jednadžbe;
  3. procjena kvaliteta analitičke regresione jednačine.
Najčešće se linearni oblik koristi za opisivanje statističkog odnosa karakteristika. Pažnja na linearna veza se objašnjava jasnim ekonomskim tumačenjem njegovih parametara, ograničenom varijacijom varijabli i činjenicom da se u većini slučajeva nelinearni oblici komunikacije pretvaraju (logaritmom ili zamjenom varijabli) u linearni oblik za obavljanje proračuna.
U slučaju linearne parne veze, jednačina regresije će imati oblik: y i =a+b·x i +u i . Opcije zadata jednačina a i b su procijenjeni iz podataka statističko posmatranje x i y. Rezultat takve procjene je jednadžba: , gdje su procjene parametara a i b , je vrijednost rezultirajućeg atributa (varijable) dobijenog iz jednačine regresije (izračunata vrijednost).

Najčešće se koristi za procjenu parametara metoda najmanjih kvadrata (LSM).
Metoda najmanjih kvadrata daje najbolje (dosljedne, efikasne i nepristrasne) procjene parametara regresione jednačine. Ali samo ako su ispunjene određene pretpostavke u vezi sa slučajnim članom (u) i nezavisnom varijablom (x) (vidi OLS pretpostavke).

Problem procjene parametara lineara jednačina para metoda najmanjih kvadrata je kako slijedi: da se dobiju takve procjene parametara , , kod kojih je zbroj kvadrata odstupanja stvarnih vrijednosti rezultujuće karakteristike - y i od izračunatih vrijednosti - minimalan.
Formalno OLS kriterijum može se napisati ovako: .

Klasifikacija metoda najmanjih kvadrata

  1. Metoda najmanjeg kvadrata.
  2. Metoda maksimalne vjerovatnoće (za normalan klasični model linearne regresije, postulira se normalnost reziduala regresije).
  3. Generalizirana metoda najmanjih kvadrata OLS koristi se u slučaju autokorelacije grešaka iu slučaju heteroskedastičnosti.
  4. Metoda ponderiranih najmanjih kvadrata ( poseban slučaj OLS sa heteroskedastičnim rezidualima).

Hajde da ilustrujemo poentu klasična metoda najmanjih kvadrata grafički. Za ovo ćemo izgraditi Scatter plot prema podacima opservacije (x i , y i , i=1;n) u pravougaoni sistem koordinate (takva tačkasta dijagrama naziva se korelaciono polje). Pokušajmo odabrati pravu liniju koja je najbliža tačkama korelacionog polja. Prema metodi najmanjih kvadrata, linija se bira tako da zbir kvadrata vertikalnih udaljenosti između tačaka korelacionog polja i ove prave bude minimalan.

Matematička notacija za ovaj problem: .
Poznate su nam vrijednosti y i i x i =1...n; ovo su podaci opservacije. U S funkciji predstavljaju konstante. Varijable u ovoj funkciji su potrebne procjene parametara - , . Da bi se pronašao minimum funkcije dvije varijable, potrebno je izračunati parcijalne izvode ove funkcije za svaki od parametara i izjednačiti ih sa nulom, tj. .
Kao rezultat, dobijamo sistem od 2 normala linearne jednačine:
Odlučivanje ovaj sistem, nalazimo potrebne procjene parametara:

Ispravnost proračuna parametara regresione jednačine može se provjeriti poređenjem iznosa (može doći do neslaganja zbog zaokruživanja proračuna).
Da biste izračunali procjene parametara, možete napraviti tabelu 1.
Znak koeficijenta regresije b ukazuje na smjer odnosa (ako je b >0, odnos je direktan, ako je b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formalno, vrijednost parametra a je prosječna vrijednost y sa x jednakim nuli. Ako faktor-atribut nema i ne može imati nultu vrijednost, onda gornja interpretacija parametra a nema smisla.

Procjena bliskosti odnosa između karakteristika izvršeno korištenjem koeficijenta linearne parne korelacije - r x,y. Može se izračunati pomoću formule: . Osim toga, koeficijent korelacije linearnog para može se odrediti preko koeficijenta regresije b: .
Raspon prihvatljivih vrijednosti koeficijenta linearne korelacije para je od –1 do +1. Znak koeficijenta korelacije ukazuje na smjer odnosa. Ako je r x, y >0, onda je veza direktna; ako je r x, y<0, то связь обратная.
Ako je ovaj koeficijent po veličini blizu jedinice, onda se odnos između karakteristika može tumačiti kao prilično blizak linearni. Ako je njegov modul jednak jednom ê r x , y ê =1, tada je odnos između karakteristika funkcionalno linearan. Ako su karakteristike x i y linearno nezavisne, tada je r x,y blizu 0.
Za izračunavanje r x,y možete koristiti i tabelu 1.

Tabela 1

N zapažanjax iy ix i ∙y i
1 x 1y 1x 1 y 1
2 x 2y 2x 2 y 2
...
nx ny nx n y n
Column Sum∑x∑y∑xy
Prosječna vrijednost
Da biste procijenili kvalitetu rezultirajuće regresione jednačine, izračunajte teoretski koeficijent determinacije - R 2 yx:

,
gdje je d 2 varijansa y objašnjena jednadžbom regresije;
e 2 - rezidualna (neobjašnjena jednadžbom regresije) varijansa y;
s 2 y - ukupna (ukupna) varijansa y.
Koeficijent determinacije karakteriše udio varijacije (disperzije) rezultujućeg atributa y objašnjen regresijom (i, posljedično, faktorom x) u ukupnoj varijaciji (disperziji) y. Koeficijent determinacije R 2 yx ima vrijednosti od 0 do 1. Shodno tome, vrijednost 1-R 2 yx karakterizira udio varijanse y uzrokovane utjecajem drugih faktora koji nisu uzeti u obzir u modelu i greškama u specifikaciji.
Sa uparenom linearnom regresijom, R 2 yx =r 2 yx.

100 RUR bonus za prvu narudžbu

Odaberite vrstu rada Diplomski rad Kurs Sažetak Magistarska teza Izvještaj iz prakse Izvještaj o članku Pregled Test rada Monografija Rešavanje problema Poslovni plan Odgovori na pitanja Kreativni rad Esej Crtanje Eseji Prevod Prezentacije Kucanje Ostalo Povećanje jedinstvenosti teksta Magistarski rad Laboratorijski rad On-line pomoć

Saznajte cijenu

Metoda najmanjih kvadrata je matematička (matematičko-statistička) tehnika koja se koristi za usklađivanje vremenskih serija, identifikaciju oblika korelacije između slučajnih varijabli, itd. Sastoji se u tome da se funkcija koja opisuje ovu pojavu aproksimira jednostavnijom funkcijom. Štaviše, potonje je odabrano na način da je standardna devijacija (vidi Disperzija) stvarnih nivoa funkcije u posmatranim tačkama od poravnatih najmanja.

Na primjer, prema dostupnim podacima ( xi,yi) (i = 1, 2, ..., n) takva kriva je konstruisana y = a + bx, pri čemu se postiže minimalni zbir kvadrata odstupanja

tj. funkcija koja zavisi od dva parametra je minimizirana: a- segment na ordinatnoj osi i b- pravolinijski nagib.

Jednačine koje daju potrebne uslove za minimiziranje funkcije S(a,b), su pozvani normalne jednačine. Kao aproksimirajuće funkcije koriste se ne samo linearne (poravnanje duž prave), već i kvadratne, paraboličke, eksponencijalne itd. Za primjer poravnanja vremenske serije duž prave, vidi sl. M.2, gdje je zbir kvadrata udaljenosti ( y 1 – ȳ 1)2 + (y 2 – ȳ 2)2 .... je najmanji, a rezultirajuća prava linija najbolje odražava trend dinamičke serije posmatranja određenog indikatora tokom vremena.

Za nepristrasne OLS procjene, potrebno je i dovoljno da se ispuni najvažniji uslov regresione analize: matematičko očekivanje slučajne greške, uslovljeno faktorima, mora biti jednako nuli. Ovaj uslov je posebno ispunjen ako: 1.matematičko očekivanje slučajnih grešaka je nula, i 2.faktori i slučajne greške su nezavisne slučajne varijable. Prvi uslov se može smatrati uvek ispunjenim za modele sa konstantom, jer konstanta poprima matematičko očekivanje grešaka različito od nule. Drugi uslov - uslov egzogenosti faktora - je fundamentalan. Ako ovo svojstvo nije ispunjeno, onda možemo pretpostaviti da će gotovo sve procjene biti krajnje nezadovoljavajuće: neće biti ni konzistentne (odnosno, čak i vrlo velika količina podataka ne omogućava nam da dobijemo visokokvalitetne procjene u ovom slučaju ).

Najčešća metoda statističke procjene parametara regresionih jednačina je metoda najmanjih kvadrata. Ova metoda se zasniva na brojnim pretpostavkama o prirodi podataka i rezultatima modela. Glavne su jasna podjela originalnih varijabli na zavisne i nezavisne, nekorelacija faktora uključenih u jednačine, linearnost odnosa, odsustvo autokorelacije reziduala, jednakost njihovih matematičkih očekivanja na nulu i konstanta disperzija.

Jedna od glavnih hipoteza OLS-a je pretpostavka jednakosti varijansi devijacija ei, tj. njihovo širenje oko prosječne (nulte) vrijednosti serije treba da bude stabilna vrijednost. Ovo svojstvo se naziva homoskedastičnost. U praksi su varijanse odstupanja često nejednake, odnosno uočava se heteroskedastičnost. To može biti zbog različitih razloga. Na primjer, mogu postojati greške u izvornim podacima. Povremene netačnosti u izvornim informacijama, kao što su greške u redosledu brojeva, mogu imati značajan uticaj na rezultate. Često se primjećuje veće širenje odstupanja êi s velikim vrijednostima zavisne varijable (varijable). Ako podaci sadrže značajnu grešku, tada će, naravno, i odstupanje vrijednosti modela izračunatog od pogrešnih podataka biti veliko. Da bismo se riješili ove greške, moramo smanjiti doprinos ovih podataka rezultatima proračuna, dodijelivši im manju težinu nego svim ostalima. Ova ideja je implementirana u ponderisanim OLS.