Biografije Karakteristike Analiza

Prema metodi najmanjih kvadrata, sljedeći izraz je minimiziran. Pronalaženje parametara linije regresije

Funkciju aproksimiramo polinomom 2. stepena. Da bismo to učinili, izračunavamo koeficijente normalnog sistema jednadžbi:

, ,

Hajde da napravimo normalan sistem najmanji kvadrati, koji izgleda ovako:

Rješenje sistema je lako pronaći:, , .

Tako se nalazi polinom 2. stepena: .

Teorijska referenca

Povratak na stranicu<Введение в вычислительную математику. Примеры>

Primjer 2. Pronalaženje optimalnog stepena polinoma.

Povratak na stranicu<Введение в вычислительную математику. Примеры>

Primjer 3. Izvođenje normalnog sistema jednadžbi za nalaženje parametara empirijske zavisnosti.

Izvedemo sistem jednačina za određivanje koeficijenata i funkcija , koji izvodi aproksimaciju srednjeg kvadrata datu funkciju po bodovima. Sastavite funkciju i pisati za nju neophodno stanje ekstrem:

Onda normalan sistemće poprimiti oblik:

Imam linearni sistem jednadžbe za nepoznate parametre i koja se lako rješava.

Teorijska referenca

Povratak na stranicu<Введение в вычислительную математику. Примеры>

Primjer.

Eksperimentalni podaci o vrijednostima varijabli X i at date su u tabeli.

Kao rezultat njihovog usklađivanja, funkcija

Koristeći metoda najmanjeg kvadrata, aproksimira ove podatke linearnom zavisnošću y=ax+b(pronađi opcije a i b). Saznajte koja od dvije linije je bolja (u smislu metode najmanjih kvadrata) poravnava eksperimentalne podatke. Napravite crtež.

Suština metode najmanjih kvadrata (LSM).

Problem je pronaći koeficijente linearna zavisnost, za koji je funkcija dvije varijable a i bprihvata najmanju vrijednost. Odnosno, s obzirom na podatke a i b zbir kvadrata odstupanja eksperimentalnih podataka od pronađene prave će biti najmanji. Ovo je cijela poenta metode najmanjih kvadrata.

Dakle, rješenje primjera se svodi na pronalaženje ekstrema funkcije dvije varijable.

Izvođenje formula za pronalaženje koeficijenata.

Sastavlja se i rješava sistem dvije jednačine sa dvije nepoznate. Pronalaženje parcijalnih izvoda funkcija po varijablama a i b, izjednačavamo ove izvode sa nulom.

Rezultirajući sistem jednačina rješavamo bilo kojom metodom (npr metoda zamjene ili Cramerovu metodu) i dobiju formule za pronalaženje koeficijenata koristeći metodu najmanjih kvadrata (LSM).

Sa podacima a i b funkcija uzima najmanju vrijednost. Dokaz za ovu činjenicu dat je u tekstu na kraju stranice.

To je cijela metoda najmanjih kvadrata. Formula za pronalaženje parametra a sadrži sume , , , i parametar n je količina eksperimentalnih podataka. Vrijednosti ovih suma se preporučuje da se izračunaju zasebno.

Koeficijent b pronađeno nakon proračuna a.

Vrijeme je da se prisjetimo originalnog primjera.

Odluka.

U našem primjeru n=5. Popunjavamo tabelu radi praktičnosti izračunavanja iznosa koji su uključeni u formule potrebnih koeficijenata.

Vrijednosti u četvrtom redu tabele dobijaju se množenjem vrijednosti 2. retka sa vrijednostima 3. reda za svaki broj i.

Vrijednosti u petom redu tabele dobijaju se kvadriranjem vrijednosti 2. reda za svaki broj i.

Vrijednosti posljednje kolone tabele su zbroji vrijednosti u redovima.

Za pronalaženje koeficijenata koristimo formule metode najmanjih kvadrata a i b. U njih zamjenjujemo odgovarajuće vrijednosti iz posljednje kolone tabele:

dakle, y=0,165x+2,184 je željena aproksimirajuća ravna linija.

Ostaje da saznamo koja od linija y=0,165x+2,184 ili bolje aproksimira originalne podatke, tj. da procjenu metodom najmanjih kvadrata.

Procjena greške metode najmanjih kvadrata.

Da biste to učinili, morate izračunati sume kvadrata odstupanja izvornih podataka od ovih linija i , manja vrijednost odgovara liniji koja bolje aproksimira originalne podatke u smislu metode najmanjih kvadrata.

Od , onda linija y=0,165x+2,184 bolje aproksimira originalne podatke.

Grafička ilustracija metode najmanjih kvadrata (LSM).

Na listama sve izgleda odlično. Crvena linija je pronađena linija y=0,165x+2,184, plava linija je , ružičaste tačke su originalni podaci.

Čemu služi, čemu sve ove aproksimacije?

Ja lično koristim za rješavanje problema izglađivanja podataka, problema interpolacije i ekstrapolacije (u originalnom primjeru od vas bi se moglo tražiti da pronađete vrijednost uočene vrijednosti y at x=3 ili kada x=6 prema MNC metodi). Ali o tome ćemo više govoriti kasnije u drugom dijelu stranice.

Vrh stranice

Dokaz.

Tako da kada se nađe a i b funkcija uzima najmanju vrijednost, potrebno je da u ovom trenutku matrica kvadratnog oblika diferencijala drugog reda za funkciju bilo pozitivno određeno. Hajde da to pokažemo.

Diferencijal drugog reda ima oblik:

tj

Prema tome, matrica kvadratnog oblika ima oblik

a vrijednosti elemenata ne ovise o a i b.

Pokažimo da je matrica pozitivno određena. Ovo zahtijeva da manji kutovi budu pozitivni.

Ugaoni minor prvog reda . Nejednakost je stroga, jer se tačke ne poklapaju. Ovo će se podrazumijevati u onome što slijedi.

Ugaoni minor drugog reda

Dokažimo to metoda matematičke indukcije.

Zaključak: pronađene vrijednosti a i b odgovaraju najmanjoj vrijednosti funkcije , dakle, su željeni parametri za metodu najmanjih kvadrata.

Jeste li ikada razumjeli?
Naručite rješenje

Vrh stranice

Izrada prognoze metodom najmanjih kvadrata. Primjer rješenja problema

Ekstrapolacija je metoda naučno istraživanje, koji se zasniva na distribuciji prošlih i sadašnjih trendova, obrazaca, odnosa prema budućem razvoju objekta predviđanja. Metode ekstrapolacije uključuju metoda pokretnog prosjeka, metoda eksponencijalno izglađivanje, metoda najmanjih kvadrata.

Essence metoda najmanjih kvadrata sastoji se u minimiziranju sume standardne devijacije između posmatranih i izračunatih vrednosti. Izračunate vrijednosti se nalaze prema odabranoj jednadžbi - jednadžbi regresije. Što je manja udaljenost između stvarnih vrijednosti i izračunatih, to je preciznija prognoza zasnovana na jednadžbi regresije.

Teorijska analiza suštine fenomena koji se proučava, čija se promjena prikazuje vremenskim nizom, služi kao osnova za odabir krive. Razmatranja o prirodi rasta nivoa serije se ponekad uzimaju u obzir. Dakle, ako se očekuje rast proizvodnje u aritmetička progresija, zatim se izravnavanje izvodi u pravoj liniji. Ako se ispostavi da je rast in geometrijska progresija, tada bi se izglađivanje trebalo izvesti prema eksponencijalnoj funkciji.

Radna formula metode najmanjih kvadrata : Y t+1 = a*X + b, gdje je t + 1 period prognoze; Ut+1 – predviđeni indikator; a i b su koeficijenti; X - simbol vrijeme.

Koeficijenti a i b se izračunavaju prema sljedećim formulama:

gdje je, Uf - stvarne vrijednosti serije dinamike; n je broj nivoa u vremenskoj seriji;

Izglađivanje vremenskih serija metodom najmanjih kvadrata služi za odraz obrazaca razvoja fenomena koji se proučava. U analitičkom izrazu trenda, vrijeme se smatra nezavisnom varijablom, a nivoi serije djeluju kao funkcija ove nezavisne varijable.

Razvoj neke pojave ne zavisi od toga koliko je godina prošlo od početne tačke, već od toga koji su faktori uticali na njen razvoj, u kom pravcu i kojim intenzitetom. Iz ovoga je jasno da se razvoj neke pojave u vremenu javlja kao rezultat djelovanja ovih faktora.

Pravilno postavljen tip krivulje, tip analitičke ovisnosti o vremenu je jedan od najvažnijih izazovni zadaci prediktivna analiza .

Izbor vrste funkcije koja opisuje trend, čiji su parametri određeni metodom najmanjih kvadrata, u većini slučajeva je empirijski, konstruisanjem većeg broja funkcija i međusobnom poređenjem u smislu vrijednosti korijena. -srednja kvadratna greška, izračunata po formuli:

gdje je Uf - stvarne vrijednosti serije dinamike; Ur – izračunate (izglađene) vrijednosti vremenske serije; n je broj nivoa u vremenskoj seriji; p je broj parametara definisanih u formulama koje opisuju trend (trend razvoja).

Nedostaci metode najmanjih kvadrata :

  • kada pokušavamo da opišemo ekonomski fenomen koji se proučava koristeći matematička jednačina, prognoza će biti tačna za kratak vremenski period i regresionu jednačinu treba ponovo izračunati kako nove informacije postanu dostupne;
  • složenost odabira jednadžbe regresije, koja je rješiva ​​standardnim kompjuterskim programima.

Primjer korištenja metode najmanjih kvadrata za razvoj prognoze

Zadatak . Postoje podaci koji karakterišu nivo nezaposlenosti u regionu, %

  • Izgradite prognozu stope nezaposlenosti u regionu za mjesece novembar, decembar, januar koristeći metode: pokretni prosjek, eksponencijalno izravnavanje, najmanji kvadrati.
  • Izračunajte greške u rezultirajućim prognozama koristeći svaku metodu.
  • Uporedite dobijene rezultate, izvucite zaključke.

Rješenje najmanjih kvadrata

Za rješenje ćemo sastaviti tabelu u kojoj ćemo napraviti potrebne proračune:

ε = 28,63/10 = 2,86% tačnost prognoze visoko.

Zaključak : Poređenje rezultata dobijenih u proračunima metoda pokretnog prosjeka , eksponencijalno izglađivanje i metodom najmanjih kvadrata, možemo reći da je prosjek relativna greška kada se izračunava metodom eksponencijalnog izglađivanja, pada u rasponu od 20-50%. To znači da je tačnost predviđanja ovaj slučaj je samo zadovoljavajuće.

U prvom i trećem slučaju tačnost prognoze je visoka, jer je prosječna relativna greška manja od 10%. Ali metoda pokretnog proseka omogućila je da se dobiju pouzdaniji rezultati (prognoza za novembar - 1,52%, prognoza za decembar - 1,53%, prognoza za januar - 1,49%), pošto je prosečna relativna greška pri upotrebi ove metode najmanja - 1 ,trinaest%.

Metoda najmanjeg kvadrata

Ostali srodni članci:

Spisak korištenih izvora

  1. Naučno-metodološke preporuke za dijagnosticiranje društvenih rizika i predviđanje izazova, prijetnji i društvene posledice. Ruska država socijalni univerzitet. Moskva. 2010;
  2. Vladimirova L.P. Predviđanje i planiranje u tržišnim uslovima: Proc. dodatak. M.: Izdavačka kuća"Daškov i Ko", 2001;
  3. Novikova N.V., Pozdeeva O.G. Predviđanje nacionalna ekonomija: Nastavno pomagalo. Jekaterinburg: Izdavačka kuća Ural. stanje ekonomija univerzitet, 2007;
  4. Slutskin L.N. MBA kurs poslovnog predviđanja. Moskva: Alpina Business Books, 2006.

Program CG

Unesite podatke

Podaci i aproksimacija y = a + b x

i- broj eksperimentalne tačke;
x i- vrijednost fiksnog parametra u tački i;
y i- vrijednost mjerenog parametra u tački i;
ω i- mjerenje težine u tački i;
y i, kalc.- razlika između izmjerene vrijednosti i vrijednosti izračunate iz regresije y u tački i;
S x i (x i)- procjena greške x i prilikom merenja y u tački i.

Podaci i aproksimacija y = k x

i x i y i ω i y i, kalc. Δy i S x i (x i)

Kliknite na grafikon

Korisnički priručnik za MNC online program.

U polje podataka unesite u svaki poseban red vrijednosti `x` i `y` u jednoj eksperimentalnoj točki. Vrijednosti moraju biti odvojene razmakom (razmak ili tab).

Treća vrijednost može biti težina točke `w`. Ako težina tačke nije navedena, onda je jednaka jedan. U ogromnoj većini slučajeva, težine eksperimentalnih tačaka su nepoznate ili nisu izračunate; svi eksperimentalni podaci se smatraju ekvivalentnim. Ponekad težine u proučavanom rasponu vrijednosti definitivno nisu ekvivalentne i mogu se čak i teoretski izračunati. Na primjer, u spektrofotometriji, težine se mogu izračunati korištenjem jednostavnih formula, iako u osnovi svi to zanemaruju kako bi smanjili troškove rada.

Podaci se mogu zalijepiti kroz međuspremnik iz proračunske tablice uredskog paketa, kao što je Excel iz Microsoft Officea ili Calc iz Open Officea. Za ovo u tabela označite opseg podataka za kopiranje, kopirajte u međuspremnik i zalijepite podatke u polje podataka na ovoj stranici.

Za izračunavanje metodom najmanjih kvadrata potrebne su najmanje dvije točke za određivanje dva koeficijenta `b` - tangenta ugla nagiba prave linije i `a` - vrijednosti odsječene pravom linijom na `y ` osa.

Za procjenu greške izračunatih koeficijenata regresije potrebno je postaviti broj eksperimentalnih tačaka na više od dvije.

Metoda najmanjih kvadrata (LSM).

Što je veći broj eksperimentalnih tačaka, to je precizniji statistička evaluacija koeficijenata (zbog smanjenja Studentovog koeficijenta) i što je procjena bliža procjeni opšteg uzorka.

Dobivanje vrijednosti u svakoj eksperimentalnoj točki često je povezano sa značajnim troškovima rada, stoga se često provodi kompromisni broj eksperimenata, što daje probavljivu procjenu i ne dovodi do pretjeranih troškova rada. Po pravilu, broj eksperimentalnih tačaka za linearnu zavisnost najmanjih kvadrata sa dva koeficijenta bira se u području od 5-7 tačaka.

Kratka teorija najmanjih kvadrata za linearnu zavisnost

Pretpostavimo da imamo skup eksperimentalnih podataka u obliku parova vrijednosti [`y_i`, `x_i`], gdje je `i` broj jednog eksperimentalnog mjerenja od 1 do `n`; `y_i` - vrijednost izmjerene vrijednosti u tački `i`; `x_i` - vrijednost parametra koji smo postavili u tački `i`.

Primjer je djelovanje Ohmovog zakona. Promjenom napona (razlike potencijala) između sekcija električno kolo, mjerimo količinu struje koja prolazi kroz ovu sekciju. Fizika nam daje zavisnost pronađenu eksperimentalno:

`I=U/R`,
gdje je `I` - jačina struje; `R` - otpor; `U` - napon.

U ovom slučaju, `y_i` je izmjerena vrijednost struje, a `x_i` je vrijednost napona.

Kao drugi primjer, razmotrite apsorpciju svjetlosti otopinom tvari u otopini. Hemija nam daje formulu:

`A = εl C`,
gdje je `A` optička gustoća otopine; `ε` - propusnost otopljene tvari; `l` - dužina puta kada svjetlost prolazi kroz kivetu s otopinom; `C` je koncentracija otopljene tvari.

U ovom slučaju, `y_i` je izmjerena optička gustoća `A`, a `x_i` je koncentracija supstance koju postavljamo.

Razmotrićemo slučaj kada je relativna greška u postavljanju `x_i` mnogo manja, relativna greška mjerenja `y_i`. Također ćemo pretpostaviti da su sve izmjerene vrijednosti `y_i` slučajne i normalno raspoređene, tj. poslušaj normalan zakon distribucija.

U slučaju linearne zavisnosti `y` od `x`, možemo napisati teorijsku zavisnost:
`y = a + bx`.

With geometrijska tačka gledano, koeficijent `b` označava tangentu ugla nagiba linije prema `x` osi, a koeficijent `a` - vrijednost `y` u tački sjecišta prave sa ` y` osa (za `x = 0`).

Pronalaženje parametara linije regresije.

U eksperimentu, izmjerene vrijednosti `y_i` ne mogu ležati tačno na teorijskoj liniji zbog grešaka u mjerenju, koje su uvijek svojstvene pravi zivot. Prema tome, linearna jednačina mora biti predstavljena sistemom jednačina:
`y_i = a + b x_i + ε_i` (1),
gdje je `ε_i` nepoznata greška mjerenja `y` u `i` eksperimentu.

Zavisnost (1) se također naziva regresija, tj. zavisnost dvije veličine jedna od druge sa statističkom značajnošću.

Zadatak obnavljanja zavisnosti je da se pronađu koeficijenti `a` i `b` iz eksperimentalnih tačaka [`y_i`, `x_i`].

Za pronalaženje koeficijenata obično se koriste `a` i `b` metoda najmanjeg kvadrata(MNK). To je poseban slučaj principa maksimalne vjerovatnoće.

Zapišimo (1) kao `ε_i = y_i - a - b x_i`.

Tada će zbir grešaka na kvadrat biti
`Φ = suma_(i=1)^(n) ε_i^2 = suma_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Princip metode najmanjih kvadrata je minimiziranje sume (2) u odnosu na parametre `a` i `b`.

Minimum se postiže kada su parcijalni derivati ​​zbira (2) u odnosu na koeficijente `a` i `b` jednaki nuli:
`frac(parcijalni Φ)(djelomični a) = frac(djelomična suma_(i=1)^(n) (y_i - a - b x_i)^2)(djelomična a) = 0`
`frac(parcijalni Φ)(djelomični b) = frac(djelomični zbir_(i=1)^(n) (y_i - a - b x_i)^2)(djelomični b) = 0`

Proširujući derivacije, dobijamo sistem od dve jednačine sa dve nepoznanice:
`suma_(i=1)^(n) (2a + 2bx_i - 2y_i) = suma_(i=1)^(n) (a + bx_i - y_i) = 0`
`suma_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = suma_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Otvaramo zagrade i prenosimo zbrojeve nezavisne od željenih koeficijenata na drugu polovinu, dobijamo sistem linearnih jednadžbi:
`suma_(i=1)^(n) y_i = a n + b suma_(i=1)^(n) bx_i`
`suma_(i=1)^(n) x_iy_i = a zbroj_(i=1)^(n) x_i + b suma_(i=1)^(n) x_i^2`

Rješavajući rezultirajući sistem, nalazimo formule za koeficijente `a` i `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n) ) x_iy_i) (n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (suma_(i=1)^(n) x_i)^2)` (3.2)

Ove formule imaju rješenja kada je `n > 1` (linija se može nacrtati koristeći najmanje 2 tačke) i kada je determinanta `D = n suma_(i=1)^(n) x_i^2 — (zbir_(i= 1 )^(n) x_i)^2 != 0`, tj. kada su tačke `x_i` u eksperimentu različite (tj. kada linija nije okomita).

Procjena grešaka u koeficijentima regresione linije

Za precizniju procjenu greške pri izračunavanju koeficijenata `a` i `b`, poželjno je veliki broj eksperimentalne tačke. Kada je `n = 2`, nemoguće je procijeniti grešku koeficijenata, jer aproksimirajuća prava će jednoznačno prolaziti kroz dvije tačke.

Greška slučajna varijabla`V` je definiran zakon akumulacije grešaka
`S_V^2 = suma_(i=1)^p (frac(parcijalni f)(djelomični z_i))^2 S_(z_i)^2`,
gdje je `p` broj parametara `z_i` sa greškom `S_(z_i)` koji utiču na grešku `S_V`;
`f` je funkcija zavisnosti `V` od `z_i`.

Napišimo zakon akumulacije grešaka za grešku koeficijenata `a` i `b`
`S_a^2 = suma_(i=1)^(n)(frac(parcijalni a)(djelomični y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(djelomični a )(parcijalni x_i))^2 S_(x_i)^2 = S_y^2 suma_(i=1)^(n)(frac(djelomični a)(djelomični y_i))^2 `,
`S_b^2 = suma_(i=1)^(n)(frac(parcijalni b)(djelomični y_i))^2 S_(y_i)^2 + suma_(i=1)^(n)(frac(djelomični b )(parcijalni x_i))^2 S_(x_i)^2 = S_y^2 suma_(i=1)^(n)(frac(djelomični b)(djelomični y_i))^2 `,
jer `S_(x_i)^2 = 0` (prethodno smo rezervisali da je greška `x` zanemarljiva).

`S_y^2 = S_(y_i)^2` - greška (varijansa, na kvadrat standardna devijacija) u dimenziji `y`, pod pretpostavkom da je greška uniformna za sve vrijednosti `y`.

Zamjenom formula za izračunavanje `a` i `b` u rezultirajuće izraze, dobijamo

`S_a^2 = S_y^2 frac(suma_(i=1)^(n) (suma_(i=1)^(n) x_i^2 - x_i suma_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n suma_(i=1)^(n) x_i^2 - (suma_(i=1)^(n) x_i)^2) suma_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n suma_(i=1)^(n) x_i^2 - (suma_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

U većini stvarnih eksperimenata, vrijednost `Sy` se ne mjeri. Da biste to učinili, potrebno je izvršiti nekoliko paralelnih mjerenja (eksperimenata) na jednoj ili više tačaka plana, što povećava vrijeme (i eventualno cijenu) eksperimenta. Stoga se obično pretpostavlja da se odstupanje `y` od linije regresije može smatrati slučajnim. Procjena varijanse `y` u ovom slučaju se izračunava po formuli.

`S_y^2 = S_(y, odmor)^2 = frac(suma_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Delitelj `n-2` se pojavljuje jer smo smanjili broj stupnjeva slobode zbog izračunavanja dva koeficijenta za isti uzorak eksperimentalnih podataka.

Ova procjena se također naziva rezidualna varijansa u odnosu na liniju regresije `S_(y, rest)^2`.

Procjena značajnosti koeficijenata vrši se prema studentskom kriteriju

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Ako je izračunati kriterij `t_a`, `t_b` je manji od tabelarni kriterijumi`t(P, n-2)`, onda se smatra da se odgovarajući koeficijent ne razlikuje značajno od nule sa datom vjerovatnoćom `P`.

Da biste ocijenili kvalitetu opisa linearne veze, možete uporediti `S_(y, odmor)^2` i `S_(bar y)` u odnosu na srednju vrijednost koristeći Fisherov kriterij.

`S_(bar y) = frac(suma_(i=1)^n (y_i - bar y)^2) (n-1) = frac(suma_(i=1)^n (y_i - (suma_(i= 1)^n y_i) /n)^2) (n-1)` - evaluacija uzorka varijansu `y` u odnosu na srednju vrijednost.

Za procjenu efikasnosti regresione jednadžbe za opisivanje zavisnosti izračunava se Fisherov koeficijent
`F = S_(bar y) / S_(y, odmor)^2`,
koji se poredi sa tabelarnim Fisherovim koeficijentom `F(p, n-1, n-2)`.

Ako je `F > F(P, n-1, n-2)`, razlika između opisa zavisnosti `y = f(x)` pomoću regresione jednačine i opisa pomoću srednje vrijednosti smatra se statistički značajnom s vjerovatnoćom `P`. One. regresija bolje opisuje zavisnost od širenja `y` oko srednje vrednosti.

Kliknite na grafikon
da dodate vrednosti u tabelu

Metoda najmanjeg kvadrata. Metoda najmanjih kvadrata znači određivanje nepoznatih parametara a, b, c, prihvaćene funkcionalne zavisnosti

Metoda najmanjih kvadrata podrazumijeva određivanje nepoznatih parametara a, b, c,… prihvaćena funkcionalna zavisnost

y = f(x,a,b,c,…),

koji bi obezbedio minimum srednjeg kvadrata (varijanse) greške

, (24)

gdje je x i , y i - skup parova brojeva dobijenih iz eksperimenta.

Pošto je uslov za ekstremum funkcije nekoliko varijabli uslov da su njeni parcijalni derivati ​​jednaki nuli, tada parametri a, b, c,… određuju se iz sistema jednačina:

; ; ; … (25)

Treba imati na umu da se metoda najmanjih kvadrata koristi za odabir parametara nakon oblika funkcije y = f(x) definisano.

Ako se iz teorijskih razmatranja ne mogu izvući zaključci o tome šta bi trebalo biti empirijska formula, onda se mora pratiti vizuelne reprezentacije, prvenstveno grafički prikaz posmatranih podataka.

U praksi se najčešće ograničava na sljedeće vrste funkcija:

1) linearni ;

2) kvadratno a .

Ako neki fizička količina zavisi od druge veličine, onda se ova zavisnost može proučavati mjerenjem y at različite vrijednosti x . Kao rezultat mjerenja dobija se niz vrijednosti:

x 1 , x 2 , ..., x i , ... , x n ;

y 1 , y 2 , ..., y i , ... , y n .

Na osnovu podataka takvog eksperimenta moguće je nacrtati zavisnost y = ƒ(x). Rezultirajuća kriva omogućava procjenu oblika funkcije ƒ(x). kako god konstantni koeficijenti, koji su uključeni u ovu funkciju, ostaju nepoznati. Mogu se odrediti metodom najmanjih kvadrata. Eksperimentalne tačke, po pravilu, ne leže tačno na krivulji. Metoda najmanjih kvadrata zahtijeva da zbir kvadrata odstupanja eksperimentalnih tačaka od krive, tj. 2 je bio najmanji.

U praksi se ova metoda najčešće (i najjednostavnije) koristi u slučaju linearnog odnosa, tj. kada

y=kx ili y = a + bx.

Linearna zavisnost je veoma raširena u fizici. Čak i kada je zavisnost nelinearna, oni obično pokušavaju da naprave graf na takav način da dobiju ravnu liniju. Na primjer, ako se pretpostavi da je indeks prelamanja stakla n povezan sa valnom dužinom λ svjetlosnog vala relacijom n = a + b/λ 2 , tada je ovisnost n od λ -2 ucrtana na graf .

Uzmite u obzir zavisnost y=kx(prava koja prolazi kroz ishodište). Sastavite vrijednost φ - zbir kvadrata odstupanja naših tačaka od prave linije

Vrijednost φ je uvijek pozitivna i ispada da je manja što su naše tačke bliže pravoj liniji. Metoda najmanjih kvadrata kaže da za k treba izabrati takvu vrijednost pri kojoj φ ima minimum


ili
(19)

Proračun pokazuje da je srednja kvadratna greška u određivanju vrijednosti k jednaka

, (20)
gdje je – n broj mjerenja.

Pogledajmo sada još nekoliko hard case kada tačke moraju zadovoljiti formulu y = a + bx(prava koja ne prolazi kroz ishodište).

Zadatak je pronaći dati skup vrijednosti x i , y i najbolje vrednosti a i b.

Hajde da komponujemo ponovo kvadratni oblik φ , jednak zbiru kvadrata odstupanja tačaka x i , y i od prave linije

i pronađite vrijednosti a i b za koje φ ima minimum

;

.

.

Zajednička odluka ove jednačine daje

(21)

Srednje kvadratne greške određivanja a i b su jednake

(23)

.  (24)

Prilikom obrade rezultata mjerenja ovom metodom, zgodno je sve podatke sumirati u tabelu u kojoj su svi zbroji uključeni u formule (19)–(24) preliminarno izračunati. Obrasci ovih tabela prikazani su u primjerima ispod.

Primjer 1 Proučavana je osnovna jednačina dinamike rotaciono kretanjeε = M/J (prava koja prolazi kroz ishodište). Izmjereno je pri različitim vrijednostima momenta M ugaono ubrzanjeε nekog tijela. Potrebno je odrediti moment inercije ovog tijela. Rezultati mjerenja momenta sile i kutnog ubrzanja navedeni su u drugom i trećem stupcu tabele 5.

Tabela 5
n M, N m ε, s-1 M2 M ε ε - km (ε - km) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Formulom (19) određujemo:

.

Za određivanje korijenske srednje kvadratne greške koristimo formulu (20)

0.005775kg-jedan · m -2 .

Po formuli (18) imamo

; .

SJ = (2,996 0,005775)/0,3337 = 0,05185 kg m 2.

S obzirom na pouzdanost P = 0,95 , prema tabeli Studentovih koeficijenata za n = 5, nalazimo t = 2,78 i odredimo apsolutnu grešku ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kg m 2.

Rezultate pišemo u obliku:

J = (3,0 ± 0,2) kg m 2;


Primjer 2 Temperaturni koeficijent otpornosti metala izračunavamo metodom najmanjih kvadrata. Otpor ovisi o temperaturi prema linearnom zakonu

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °.

Slobodni član određuje otpor R 0 na temperaturi od 0 ° C, a nagib određuje proizvod temperaturni koeficijentα na otpor R 0 .

Rezultati mjerenja i proračuna dati su u tabeli ( vidi tabelu 6).

Tabela 6
n t°, s r, Ohm t-¯t (t-¯t) 2 (t-¯t)r r-bt-a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Formulama (21), (22) određujemo

R 0 = ¯ R- α R 0 ¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Ohm.

Nađimo grešku u definiciji α. Budući da , tada po formuli (18) imamo:

.

Koristeći formule (23), (24) imamo

;

0.014126 Ohm.

S obzirom na pouzdanost P = 0,95, prema tabeli Studentovih koeficijenata za n = 6, nalazimo t = 2,57 i odredimo apsolutnu grešku Δα = 2,57 0,000132 = 0,000338 stepen -1.

α = (23 ± 4) 10 -4 hail-1 na P = 0,95.


Primjer 3 Potrebno je odrediti radijus zakrivljenosti sočiva iz Newtonovih prstenova. Izmjereni su polumjeri Njutnovih prstenova r m i određeni brojevi ovih prstenova m. Poluprečnici Njutnovih prstenova povezani su sa radijusom zakrivljenosti sočiva R i brojem prstena po jednačini

r 2 m = mλR - 2d 0 R,

gdje je d 0 debljina jaza između sočiva i ravnoparalelne ploče (ili deformacija sočiva),

λ je talasna dužina upadne svjetlosti.

λ = (600 ± 6) nm;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,

tada će jednačina poprimiti oblik y = a + bx.

.

Upisuju se rezultati mjerenja i proračuna tabela 7.

Tabela 7
n x = m y \u003d r 2, 10 -2 mm 2 m-¯m (m-¯m) 2 (m-¯m)y y-bx-a, 10-4 (y - bx - a) 2, 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

koji najširu primenu nalazi u raznim oblastima nauke i praktične aktivnosti. To može biti fizika, hemija, biologija, ekonomija, sociologija, psihologija i tako dalje i tako dalje. Voljom sudbine, često moram da se bavim ekonomijom, i zato ću danas za vas srediti kartu za divna zemlja pod naslovom Ekonometrija=) … Kako to ne želiš?! Tamo je jako dobro - samo morate odlučiti! …Ali ono što sigurno želite je naučiti kako rješavati probleme najmanji kvadrati. A posebno marljivi čitaoci naučiće da ih rešavaju ne samo precizno, već i VEOMA BRZO ;-) Ali prvo opšta izjava o problemu+ povezani primjer:

Pustite malo predmetna oblast istražuju se indikatori koji imaju kvantitativni izraz. Istovremeno, postoje svi razlozi za vjerovanje da indikator ovisi o indikatoru. Ova pretpostavka može biti naučna hipoteza, a na osnovu elementarnih zdrav razum. Ostavimo nauku po strani, međutim, i istražimo privlačnija područja – naime, trgovine prehrambenim proizvodima. Označiti sa:

– maloprodajni prostor prehrambene radnje, m2,
- godišnji promet trgovine prehrambenim proizvodima, milion rubalja.

Sasvim je jasno šta više površine trgovine, veći je njen promet u većini slučajeva.

Pretpostavimo da nakon obavljanja zapažanja / eksperimenata / proračuna / plesa s tamburom imamo na raspolaganju numeričke podatke:

Sa prehrambenim prodavnicama mislim da je sve jasno: - ovo je površina 1. prodavnice, - njen godišnji promet, - površina 2. prodavnice, - njen godišnji promet itd. Usput, nije potrebno imati pristup klasifikovani materijali- dosta tačna procjena promet se može ostvariti putem matematičke statistike. Međutim, nemojte se ometati, kurs komercijalne špijunaže je već plaćen =)

Tabelarni podaci se također mogu zapisati u obliku tačaka i prikazati na uobičajen način za nas. Kartezijanski sistem .

Mi ćemo odgovoriti važno pitanje: koliko bodova vam je potrebno kvalitativno istraživanje?

Što veće, to bolje. Minimalni dozvoljeni skup se sastoji od 5-6 bodova. Osim toga, s malom količinom podataka, “nenormalni” rezultati ne bi trebali biti uključeni u uzorak. Tako, na primjer, mala elitna radnja može pomoći redovima veličine više od "njihovih kolega", čime se iskrivljuje opšti obrazac, koji se nalazi!

Ako je sasvim jednostavno, moramo odabrati funkciju, raspored koji prolazi što bliže tačkama . Takva funkcija se zove aproksimativno (aproksimacija - aproksimacija) ili teorijska funkcija . Uopšteno govoreći, ovdje se odmah pojavljuje očigledan "aplikant" - polinom visok stepen, čiji graf prolazi kroz SVE tačke. Ali ova opcija je komplicirana i često jednostavno netočna. (jer će grafikon stalno "vijati" i loše odražavati glavni trend).

Dakle, željena funkcija mora biti dovoljno jednostavna i istovremeno adekvatno odražavati ovisnost. Kao što možete pretpostaviti, jedna od metoda za pronalaženje takvih funkcija se zove najmanji kvadrati. Prvo, analizirajmo njegovu suštinu u opšti pogled. Neka neka funkcija aproksimira eksperimentalne podatke:


Kako ocijeniti tačnost ove aproksimacije? Izračunajmo i razlike (odstupanja) između eksperimentalnih i funkcionalne vrijednosti (učimo crtež). Prva misao koja vam pada na pamet je procijeniti koliki je iznos, ali problem je što razlike mogu biti negativne. (Na primjer, ) a odstupanja kao rezultat takvog zbrajanja će se poništiti. Stoga, kao procjenu tačnosti aproksimacije, predlaže se uzeti zbir moduli odstupanja:

ili u presavijenom obliku: (odjednom, ko ne zna: je ikona sume, a pomoćna je varijabla-„brojac“, koja uzima vrijednosti od 1 do ).

Aproksimirajući eksperimentalne tačke različitim funkcijama, dobićemo različita značenja, i očito, gdje je ovaj zbir manji, ta funkcija je tačnija.

Takav metod postoji i zove se metoda najmanjeg modula. Međutim, u praksi je postao mnogo rašireniji. metoda najmanjeg kvadrata, u kojem je moguće negativne vrijednosti ne eliminišu se modulom, već kvadriranjem odstupanja:

, nakon čega se napori usmjeravaju na izbor takve funkcije da je zbir kvadrata odstupanja bio što manji. Zapravo, otuda i naziv metode.

A sada se vraćamo na drugu važna tačka: kao što je gore navedeno, odabrana funkcija bi trebala biti prilično jednostavna - ali postoji i mnogo takvih funkcija: linearno , hiperbolično, eksponencijalna, logaritamski, kvadratni itd. I, naravno, ovdje bih odmah želio "smanjiti polje aktivnosti". Koju klasu funkcija odabrati za istraživanje? Primitivno ali efikasan prijem:

- Najlakši način za izvlačenje bodova na crtežu i analizirati njihovu lokaciju. Ako imaju tendenciju da budu u pravoj liniji, onda biste trebali potražiti jednačina prave linije sa optimalnim vrijednostima i . Drugim riječima, zadatak je pronaći TAKVE koeficijente - tako da zbir kvadrata odstupanja bude najmanji.

Ako se tačke nalaze, na primjer, uzduž hiperbola, onda je jasno da će linearna funkcija dati lošu aproksimaciju. U ovom slučaju tražimo najpovoljnije koeficijente za jednadžbu hiperbole - oni koji daju minimalni zbir kvadrata .

Sada primijetite da u oba slučaja govorimo funkcije dvije varijable, čiji su argumenti tražili opcije zavisnosti:

A u suštini, treba da rešimo standardni problem - da pronađemo minimum funkcije od dvije varijable.

Prisjetite se našeg primjera: pretpostavimo da se tačke "prodavnice" obično nalaze u pravoj liniji i da postoji svaki razlog vjerovati u prisutnost linearna zavisnost promet iz oblasti trgovanja. Nađimo TAKVE koeficijente "a" i "be" tako da zbir kvadrata odstupanja bio najmanji. Sve kao i obično - prvo parcijalni derivati ​​1. reda. Prema pravilo linearnosti možete razlikovati odmah ispod ikone sume:

Ako želite da koristite ove informacije za esej ili seminarski rad - bit ću vrlo zahvalan na linku u listi izvora, ovako detaljne proračune ćete naći na nekoliko mjesta:

Napravimo standardni sistem:

Svaku jednačinu smanjujemo za "dvojku" i, pored toga, "razbijamo" zbrojeve:

Bilješka : nezavisno analizirati zašto se "a" i "be" mogu izbaciti iz ikone zbira. Inače, formalno se to može učiniti sa sumom

Prepišimo sistem u "primijenjenom" obliku:

nakon čega se počinje crtati algoritam za rješavanje našeg problema:

Znamo li koordinate tačaka? Mi znamo. Sume možemo li naći? Lako. Sastavljamo najjednostavnije sistem dvije linearne jednadžbe sa dvije nepoznate("a" i "beh"). Rešavamo sistem, npr. Cramerova metoda, što rezultira stacionarna tačka. Provjeravam dovoljan uslov za ekstrem, možemo provjeriti da je u ovom trenutku funkcija dopire precizno minimum. Provjera je povezana s dodatnim proračunima i stoga ćemo je ostaviti iza scene. (ako je potrebno, okvir koji nedostaje može se vidjeti). Izvlačimo konačan zaključak:

Funkcija najbolji način (barem u usporedbi s bilo kojom drugom linearnom funkcijom) približava eksperimentalne tačke . Grubo govoreći, njegov graf prolazi što je moguće bliže ovim tačkama. U tradiciji ekonometrija rezultirajuća aproksimirajuća funkcija se također poziva jednačina para linearna regresija .

Problem koji se razmatra ima veliki praktična vrijednost. U situaciji s našim primjerom, jednadžba omogućava vam da predvidite kakav promet ("yig")će biti u trgovini s jednom ili drugom vrijednošću prodajnog područja (jedno ili drugo značenje "x"). Da, rezultirajuća prognoza će biti samo prognoza, ali će se u mnogim slučajevima pokazati prilično tačnom.

Analiziraću samo jedan problem sa "pravim" brojevima, pošto u tome nema poteškoća - svi proračuni su na nivou školski program 7-8 razred. U 95 posto slučajeva od vas će se tražiti da pronađete samo linearnu funkciju, ali na samom kraju članka pokazaću da nije teže pronaći jednadžbe za optimalnu hiperbolu, eksponent i neke druge funkcije.

U stvari, ostaje distribuirati obećane dobrote - tako da naučite kako riješiti takve primjere ne samo precizno, već i brzo. Pažljivo proučavamo standard:

Zadatak

Kao rezultat proučavanja odnosa između dva indikatora, dobijeni su sljedeći parovi brojeva:

Koristeći metodu najmanjih kvadrata, pronađite linearnu funkciju koja najbolje aproksimira empirijsku (iskusan) podaci. Napravi crtež u kartezijanskom jeziku pravougaoni sistem koordinate za izgradnju eksperimentalnih tačaka i graf aproksimirajuće funkcije . Pronađite zbroj kvadrata odstupanja između empirijskih i teorijskih vrijednosti. Saznajte je li funkcija bolja (u smislu metode najmanjih kvadrata) približne eksperimentalne tačke.

Imajte na umu da su vrijednosti "x" prirodne vrijednosti, a ovo ima karakteristično smisleno značenje, o čemu ću govoriti malo kasnije; ali one, naravno, mogu biti razlomke. Osim toga, ovisno o sadržaju određenog zadatka, i "X" i "G" vrijednosti mogu biti potpuno ili djelomično negativne. Pa, dobili smo zadatak „bez lica“ i mi ga počinjemo odluka:

Nalazimo koeficijente optimalne funkcije kao rješenje sistema:

Za potrebe kompaktnije notacije, varijabla "counter" može se izostaviti, jer je već jasno da se zbrajanje vrši od 1 do .

Pogodnije je izračunati potrebne količine u tabelarnom obliku:


Izračuni se mogu izvršiti na mikrokalkulatoru, ali je mnogo bolje koristiti Excel - i brže i bez grešaka; pogledajte kratak video:

Tako dobijamo sledeće sistem:

Ovdje možete pomnožiti drugu jednačinu sa 3 i oduzmi 2. od 1. jednačine član po član. Ali to je sreća - u praksi sistemi često nisu nadareni, a u takvim slučajevima štedi Cramerova metoda:
, tako da sistem ima jedinstveno rješenje.

Hajde da proverimo. Razumijem da ne želim, ali zašto preskakati greške tamo gdje ih nikako ne možete propustiti? Zamijenite pronađeno rješenje u lijevu stranu svake jednačine sistema:

Desne strane primljene odgovarajuće jednačine, što znači da je sistem ispravno riješen.

Dakle, željena aproksimirajuća funkcija: – od sve linearne funkcije eksperimentalni podaci se najbolje približuju njime.

Za razliku od ravno zavisnost prometa prodavnice od njene površine, pronađena zavisnost je obrnuto (princip "što više - manje"), a tu činjenicu odmah otkriva negativac ugaoni koeficijent. Funkcija obavještava nas da povećanjem određenog indikatora za 1 jedinicu, vrijednost zavisnog indikatora opada prosjek za 0,65 jedinica. Kako kažu, što je viša cijena heljde, to se manje prodaje.

Da bismo nacrtali aproksimirajuću funkciju, nalazimo dvije njene vrijednosti:

i izvedite crtež:


Konstruirana linija se zove linija trenda (naime, linearna linija trenda, tj opšti slučaj trend nije nužno ravna linija). Svima je poznat izraz "biti u trendu", a mislim da ovaj izraz ne treba dodatno komentarisati.

Izračunajte zbir kvadrata odstupanja između empirijskih i teorijskih vrijednosti. Geometrijski, ovo je zbir kvadrata dužina "grimiznih" segmenata (od kojih su dva tako mala da ih ne možete ni vidjeti).

Sumiramo proračune u tabeli:


Opet se mogu izvesti ručno, za svaki slučaj daću primjer za 1. točku:

ali to je mnogo efikasnije na određeni način:

da ponovimo: šta je smisao rezultata? Od sve linearne funkcije funkcija eksponent je najmanji, odnosno najbolja je aproksimacija u svojoj porodici. I ovdje, usput, nije slučajno. konačno pitanje problemi: šta ako je predložena eksponencijalna funkcija da li će biti bolje aproksimirati eksperimentalne tačke?

Nađimo odgovarajući zbir kvadrata odstupanja - da ih razlikujemo, označit ću ih slovom "epsilon". Tehnika je potpuno ista:


I opet za svaki proračun požara za 1. tačku:

U Excelu koristimo standardna funkcija EXP (Sintaksa se može naći u Excel pomoći).

Zaključak: , pa eksponencijalna funkcija aproksimira eksperimentalne tačke lošije od prave linije .

Ali ovdje treba napomenuti da je "gore". ne znači još, šta nije uredu. Sada sam napravio graf ove eksponencijalne funkcije - i ona takođe prolazi blizu tačaka - toliko da je bez analitičke studije teško reći koja je funkcija preciznija.

Time je rješenje završeno i vraćam se na pitanje prirodnih vrijednosti argumenta. U raznim studijama, po pravilu, ekonomskim ili sociološkim, mjeseci, godine ili drugi jednaki vremenski intervali se numerišu prirodnim "X". Razmotrite, na primjer, takav problem.

Ima mnogo aplikacija, jer omogućava približan prikaz date funkcije drugim jednostavnijim. LSM može biti izuzetno koristan u obradi zapažanja, a aktivno se koristi za procjenu nekih veličina iz rezultata mjerenja drugih koji sadrže slučajne greške. U ovom članku ćete naučiti kako implementirati izračune najmanjih kvadrata u Excelu.

Iskaz problema na konkretnom primjeru

Pretpostavimo da postoje dva indikatora X i Y. Štaviše, Y zavisi od X. Budući da nas OLS zanima sa stanovišta regresione analize (u Excelu se njegove metode implementiraju pomoću ugrađenih funkcija), treba odmah nastaviti da razmotri konkretan problem.

Neka je X trgovačko područje trgovina prehrambenih proizvoda, mjereno u kvadratnih metara, a Y je godišnji promet, definisan u milionima rubalja.

Potrebno je napraviti prognozu koliki će promet (Y) radnja imati ako ima jedan ili drugi maloprodajni prostor. Očigledno, funkcija Y = f (X) raste, jer hipermarket prodaje više robe od tezge.

Nekoliko riječi o ispravnosti početnih podataka korištenih za predviđanje

Recimo da imamo tabelu napravljenu sa podacima za n prodavnica.

Prema matematičke statistike, rezultati će biti manje-više tačni ako se ispitaju podaci o najmanje 5-6 objekata. Takođe, "anomalni" rezultati se ne mogu koristiti. Konkretno, elitni mali butik može imati višestruko veći promet od prometa velikih prodajnih mjesta klase „masmarket“.

Suština metode

Podaci tabele mogu biti prikazani u Kartezijanska ravan u obliku tačaka M 1 (x 1, y 1), ... M n (x n, y n). Sada će se rješenje problema svesti na izbor aproksimirajuće funkcije y = f (x), koja ima graf koji prolazi što bliže tačkama M 1, M 2, .. M n .

Naravno, možete koristiti polinom visokog stepena, ali ova opcija nije samo teška za implementaciju, već je jednostavno netačna, jer neće odražavati glavni trend koji treba otkriti. Najrazumnije rješenje je pronaći pravu liniju y = ax + b, koja najbolje aproksimira eksperimentalne podatke, odnosno koeficijente - a i b.

Ocena točnosti

Za bilo koju aproksimaciju, procjena njene tačnosti je od posebne važnosti. Označite sa e i razliku (odstupanje) između funkcionalne i eksperimentalne vrijednosti za tačku x i , tj. e i = y i - f (x i).

Očigledno, da biste procijenili tačnost aproksimacije, možete koristiti zbir odstupanja, odnosno, kada birate pravu liniju za približni prikaz zavisnosti X od Y, prednost treba dati onom koji ima najmanju vrijednost od zbir e i u svim tačkama koje se razmatraju. Međutim, nije sve tako jednostavno, jer će uz pozitivna odstupanja praktično biti prisutna i negativna.

Problem možete riješiti korištenjem modula odstupanja ili njihovih kvadrata. Posljednja metoda je dobila najviše široku upotrebu. Koristi se u mnogim područjima uključujući regresiona analiza(u Excelu se njegova implementacija provodi pomoću dvije ugrađene funkcije) i odavno je dokazala svoju učinkovitost.

Metoda najmanjeg kvadrata

U Excelu, kao što znate, postoji ugrađena funkcija automatskog zbroja koja vam omogućava da izračunate vrijednosti svih vrijednosti koje se nalaze u odabranom rasponu. Dakle, ništa nas neće spriječiti da izračunamo vrijednost izraza (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

U matematičkoj notaciji ovo izgleda ovako:

Pošto je prvobitno donesena odluka da se aproksimira pomoću prave linije, imamo:

Dakle, zadatak pronalaženja prave linije koja najbolje opisuje specifičan odnos između X i Y svodi se na izračunavanje minimuma funkcije dvije varijable:

Ovo zahtijeva izjednačavanje sa nultim parcijalnim derivacijama u odnosu na nove varijable a i b, i rješavanje primitivnog sistema koji se sastoji od dvije jednadžbe sa 2 nepoznate forme:

Nakon jednostavnih transformacija, uključujući dijeljenje sa 2 i manipuliranje sumama, dobijamo:

Rješavajući ga, na primjer, Cramerovom metodom, dobijamo stacionarnu tačku sa određenim koeficijentima a * i b *. Ovo je minimum, odnosno da se predvidi koliki će promet radnja imati kada određeno područje, ravna linija y \u003d a * x + b * će učiniti, što je regresijski model za predmetni primjer. Naravno da ti neće dozvoliti da nađeš tačan rezultat, ali će vam pomoći da steknete ideju o tome hoće li se kupovina trgovine na kredit za određeno područje isplatiti.

Kako implementirati metodu najmanjih kvadrata u Excelu

Excel ima funkciju za izračunavanje vrijednosti najmanjih kvadrata. Ona ima sljedeći pogled: "TREND" (poznate Y vrijednosti; poznate X vrijednosti; nove X vrijednosti; konstanta). Primijenimo formulu za izračunavanje OLS-a u Excelu na našu tablicu.

Da biste to učinili, u ćeliju u kojoj bi trebao biti prikazan rezultat izračuna metodom najmanjih kvadrata u Excelu unesite znak "=" i odaberite funkciju "TREND". U prozoru koji se otvori popunite odgovarajuća polja, naglašavajući:

  • raspon poznatih vrijednosti za Y (u ovom slučaju podaci za promet);
  • raspon x 1 , …x n , odnosno veličina maloprodajnog prostora;
  • i poznati i nepoznate vrijednosti x, za koje trebate saznati veličinu prometa (za informacije o njihovoj lokaciji na radnom listu, pogledajte dolje).

Osim toga, u formuli postoji logička varijabla "Const". Ako unesete 1 u polje koje mu odgovara, to će značiti da treba izvršiti proračune, pod pretpostavkom da je b = 0.

Ako trebate znati prognozu za više od jedne vrijednosti x, onda nakon unosa formule ne biste trebali pritisnuti "Enter", već morate upisati kombinaciju "Shift" + "Control" + "Enter" ("Enter" ) na tastaturi.

Neke karakteristike

Regresiona analiza može biti dostupna čak i lutkama. Excel formula za predviđanje vrijednosti niza nepoznatih varijabli - "TREND" - mogu koristiti čak i oni koji nikada nisu čuli za metodu najmanjih kvadrata. Dovoljno je samo znati neke karakteristike njegovog rada. posebno:

  • Ako raspoređujemo raspon poznatih vrijednosti varijable y u jedan red ili kolonu, tada svaki red (kolona) sa poznate vrednosti x će program tretirati kao zasebna varijabla.
  • Ako raspon sa poznatim x nije naveden u prozoru "TREND", onda u slučaju korištenja funkcije in Excel programće ga smatrati nizom koji se sastoji od cijelih brojeva, čiji broj odgovara rasponu sa datim vrijednostima varijable y.
  • Za izlaz niza "predviđenih" vrijednosti, izraz trenda se mora unijeti kao formula niza.
  • Ako nisu specificirane nove vrijednosti x, funkcija TREND ih smatra jednakim poznatim. Ako nisu specificirani, tada se niz 1 uzima kao argument; 2; 3; 4;…, što je srazmerno opsegu sa već datim parametrima y.
  • Raspon koji sadrži nove x vrijednosti mora se sastojati od istih ili više redove ili kolone, kao raspon sa datim y vrijednostima. Drugim riječima, mora biti proporcionalan nezavisnim varijablama.
  • Niz sa poznatim x vrijednostima može sadržavati više varijabli. Međutim, ako mi pričamo samo oko jedan, tada je potrebno da opsezi sa datim vrijednostima x i y budu srazmjerni. U slučaju više varijabli, potrebno je da raspon sa datim y vrijednostima stane u jednu kolonu ili jedan red.

FORECAST funkcija

Realizira se pomoću nekoliko funkcija. Jedna od njih se zove "PREDIKCIJA". Sličan je TREND-u, odnosno daje rezultat proračuna metodom najmanjih kvadrata. Međutim, samo za jedan X, za koji je vrijednost Y nepoznata.

Sada znate Excel formule za lutke koje vam omogućavaju da predvidite vrijednost buduće vrijednosti indikatora prema linearnom trendu.

Široko se koristi u ekonometriji u obliku jasne ekonomske interpretacije njenih parametara.

Linearna regresija se svodi na pronalaženje jednačine oblika

ili

Tipska jednadžba dozvoljava za postavljene vrijednosti parametar X imaju teorijske vrijednosti efektivne karakteristike, zamjenjujući stvarne vrijednosti faktora u njega X.

Izgradnja linearne regresije svodi se na procjenu njenih parametara − a i in. Procjene parametara linearne regresije mogu se pronaći različitim metodama.

Klasični pristup procjeni parametara linearne regresije temelji se na najmanji kvadrati(MNK).

LSM omogućava dobijanje takvih procjena parametara a i u, pod kojim je zbir kvadrata odstupanja stvarnih vrijednosti rezultirajuće osobine (y) od izračunatog (teorijskog) mini-minimum:

Da bi se pronašao minimum funkcije, potrebno je izračunati parcijalne izvode u odnosu na svaki od parametara a i b i izjednačiti ih sa nulom.

Označiti kroz S, onda:

Transformacijom formule dobijamo sledeći sistem normalne jednačine za procjenu parametara a i in:

Rješavanje sistema normalnih jednačina (3.5) bilo metodom sekvencijalno isključenje varijabli, ili metodom determinanti, nalazimo tražene procjene parametara a i in.

Parametar in naziva se koeficijent regresije. Njegova vrijednost pokazuje prosječnu promjenu rezultata sa promjenom faktora za jednu jedinicu.

Jednačina regresije je uvijek dopunjena indikatorom nepropusnosti veze. Kada se koristi linearna regresija, koeficijent linearne korelacije djeluje kao takav indikator. Postoje različite verzije formule linearni koeficijent korelacije. Neki od njih su navedeni u nastavku:

Kao što znate, koeficijent linearne korelacije je u granicama: -1 1.

Za procjenu kvaliteta selekcije linearna funkcija izračunava se kvadrat

Koeficijent linearne korelacije tzv koeficijent determinacije. Koeficijent determinacije karakteriše proporciju varijanse efektivne karakteristike y, objašnjeno regresijom totalna varijansa efektivan znak:

Shodno tome, vrijednost 1 - karakterizira udio disperzije y, uzrokovane uticajem drugih faktora koji nisu uzeti u obzir u modelu.

Pitanja za samokontrolu

1. Suština metode najmanjih kvadrata?

2. Koliko varijabli daje parnu regresiju?

3. Koji koeficijent određuje čvrstoću veze između promjena?

4. U kojim granicama se utvrđuje koeficijent determinacije?

5. Procjena parametra b u korelaciono-regresionoj analizi?

1. Christopher Dougherty. Uvod u ekonometriju. - M.: INFRA - M, 2001 - 402 str.

2. S.A. Borodich. Ekonometrija. Minsk DOO "Novo znanje" 2001.


3. R.U. Rakhmetov Kratki kurs u ekonometriji. Tutorial. Almaty. 2004. -78s.

4. I.I. Eliseeva Econometrics. - M.: "Finansije i statistika", 2002

5. Mjesečni informativno-analitički časopis.

Nelinearni ekonomski modeli. Modeli nelinearne regresije. Konverzija varijable.

Nelinearno ekonomski modeli..

Konverzija varijable.

koeficijent elastičnosti.

Ako između ekonomskih pojava postoje nelinearne relacije, onda se izražavaju pomoću odgovarajućih nelinearne funkcije: na primjer, jednakostranična hiperbola , parabole drugog stepena i sl.

Postoje dvije klase nelinearnih regresija:

1. Regresije koje su nelinearne u odnosu na objašnjavajuće varijable uključene u analizu, ali linearne u odnosu na procijenjene parametre, na primjer:

Polinomi raznih stepeni - , ;

Jednakostrana hiperbola - ;

Semilogaritamska funkcija - .

2. Regresije koje su nelinearne u procijenjenim parametrima, na primjer:

Snaga - ;

Demonstrativna -;

Eksponencijalno - .

Ukupan zbroj kvadrata odstupanja individualne vrednosti efektivna karakteristika at od prosječne vrijednosti uzrokovano je uticajem mnogih faktora. Cijeli skup razloga uslovno dijelimo u dvije grupe: proučavan faktor x i drugi faktori.

Ako faktor ne utječe na rezultat, tada je linija regresije na grafu paralelna s osom oh i

Tada je cjelokupna disperzija efektivnog atributa posljedica utjecaja drugih faktora i ukupan iznos kvadratna odstupanja će se poklopiti sa ostatkom. Ako drugi faktori ne utiču na rezultat, onda u tied sa X funkcionalno i preostali iznos kvadrata je nula. U ovom slučaju, zbir kvadrata odstupanja objašnjenih regresijom je isti kao i ukupni zbir kvadrata.

Kako sve tačke korelacionog polja ne leže na regresijskoj liniji, njihovo rasipanje se uvek dešava kao posledica uticaja faktora X, odnosno regresija at on X, i uzrokovane djelovanjem drugih uzroka (neobjašnjive varijacije). Pogodnost linije regresije za predviđanje zavisi od toga koji deo opšta varijacija sign at objašnjava objašnjenu varijaciju

Očigledno, ako je zbir kvadrata odstupanja zbog regresije veći od preostalog zbira kvadrata, tada je jednadžba regresije statistički značajna i faktor X ima značajan uticaj na ishod. y.

, tj. sa brojem slobode nezavisne varijacije obilježja. Broj stepeni slobode povezan je sa brojem jedinica populacije n i brojem konstanti koje se iz njega određuju. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od P

Procjena značaja regresione jednačine u cjelini data je uz pomoć F- Fišerov kriterijum. U ovom slučaju se postavlja nulta hipoteza da je koeficijent regresije jednak nuli, tj. b= 0, a time i faktor X ne utiče na rezultat y.

Direktnom izračunavanju F-kriterijuma prethodi analiza varijanse. Centralno za njega je proširenje ukupnog zbira kvadrata odstupanja varijable at od prosječne vrijednosti at na dva dijela - "objašnjeno" i "neobjašnjeno":

- ukupan zbir kvadrata odstupanja;

- zbir kvadrata odstupanja objašnjenih regresijom;

je rezidualni zbir kvadrata devijacije.

Svaki zbir odstupanja na kvadrat povezan je sa brojem stepeni slobode , tj. sa brojem slobode nezavisne varijacije obilježja. Broj stepena slobode povezan je sa brojem populacijskih jedinica n i sa brojem konstanti određenim iz njega. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od P moguće je potrebno za formiranje date sume kvadrata.

Disperzija po stepenu slobodeD.

F-odnosi (F-kriterijum):

Ako je nulta hipoteza tačna, zatim faktorijel i rezidualna disperzija ne razlikuju jedni od drugih. Za H 0 potrebno je opovrgavanje kako bi varijansa faktora nekoliko puta premašila rezidual. Engleski statističar Snedecor razvio je tabele kritičnih vrednosti F-odnosi na različitim nivoima materijalnosti Nulta hipoteza i razni brojevi stepena slobode. Vrijednost tabele F-kriterijum je maksimalna vrijednost omjera varijansi, koja se može dogoditi u slučaju njihove nasumične divergencije za dati nivo vjerovatnoća postojanja nulte hipoteze. Izračunata vrijednost F-odnos se priznaje kao pouzdan ako je o veće od tabelarnog.

U ovom slučaju se odbacuje nulta hipoteza o nepostojanju odnosa karakteristika i donosi se zaključak o značaju ovog odnosa: F činjenica > F tabela H 0 je odbijen.

Ako je vrijednost manja od tablice F činjenica ‹, F tabela, tada je vjerovatnoća nulte hipoteze veća od datog nivoa i ne može se odbaciti bez ozbiljnog rizika od izvođenja pogrešnog zaključka o postojanju veze. U ovom slučaju, jednačina regresije se smatra statistički beznačajnom. N o ne odstupa.

Standardna greška koeficijenta regresije

Da bi se procijenila značajnost koeficijenta regresije, njegova vrijednost se upoređuje sa njegovom standardna greška, odnosno utvrđuje se stvarna vrijednost t-Učenički kriterijum: koji se zatim poredi sa vrijednost tabele na određenom nivou značaja i broju stepeni slobode ( n- 2).

Standardna greška parametra a:

Značajnost koeficijenta linearne korelacije se provjerava na osnovu veličine greške koeficijent korelacije r:

Ukupna varijansa neke karakteristike X:

Višestruka linearna regresija

Izgradnja modela

Višestruka regresija je regresija rezultantne karakteristike sa dva i veliki broj faktora, tj. modela pogleda

Regresija može dati dobar rezultat u modeliranju ako se zanemari uticaj drugih faktora koji utiču na predmet proučavanja. Ponašanje pojedinih ekonomskih varijabli ne može se kontrolisati, odnosno nije moguće osigurati jednakost svih ostalih uslova za procjenu uticaja jednog faktora koji se proučava. U ovom slučaju treba pokušati identificirati utjecaj drugih faktora tako što ćete ih uvesti u model, odnosno izgraditi jednačinu višestruka regresija: y = a+b 1 x 1 +b 2 +…+b p x p + .

Osnovni cilj višestruke regresije je da se izgradi model sa velikim brojem faktora, pri čemu se utvrđuje uticaj svakog od njih pojedinačno, kao i njihov kumulativni uticaj na modelirani indikator. Specifikacija modela uključuje dva područja pitanja: izbor faktora i izbor vrste regresijske jednačine