Biografier Kjennetegn Analyse

I henhold til minste kvadraters metode er følgende uttrykk minimert. Finne parametrene til regresjonslinjen

Vi tilnærmer funksjonen med et polynom av 2. grad. For å gjøre dette, beregner vi koeffisientene til det normale ligningssystemet:

, ,

La oss lage et normalt system minste kvadrater, som ser slik ut:

Løsningen til systemet er lett å finne:, , .

Dermed er polynomet av 2. grad funnet: .

Teoretisk bakgrunn

Tilbake til siden<Введение в вычислительную математику. Примеры>

Eksempel 2. Finne den optimale graden av et polynom.

Tilbake til siden<Введение в вычислительную математику. Примеры>

Eksempel 3. Utledning av et normalt ligningssystem for å finne parametrene til en empirisk avhengighet.

La oss utlede et likningssystem for å bestemme koeffisientene og funksjonene , som utfører rot-middel-kvadrat-tilnærmingen gitt funksjon etter poeng. Lag en funksjon og skrive for henne nødvendig tilstand ekstremum:

Deretter normalt system vil ta formen:

Fikk lineært system ligninger for ukjente parametere og som lett kan løses.

Teoretisk bakgrunn

Tilbake til siden<Введение в вычислительную математику. Примеры>

Eksempel.

Eksperimentelle data om verdiene til variabler X og er gitt i tabellen.

Som et resultat av deres justering, funksjonen

Ved hjelp av minste kvadrat-metoden, tilnærme disse dataene med en lineær avhengighet y=ax+b(finn alternativer en og b). Finn ut hvilken av de to linjene som er best (i betydningen minste kvadraters metode) som justerer eksperimentelle data. Lag en tegning.

Essensen av metoden for minste kvadrater (LSM).

Problemet er å finne koeffisientene lineær avhengighet, for hvilke funksjonen til to variabler en og bgodtar minste verdi. Det vil si gitt dataene en og b summen av de kvadrerte avvikene til eksperimentelle data fra den funnet rette linjen vil være den minste. Dette er hele poenget med minste kvadraters metode.

Dermed er løsningen av eksempelet redusert til å finne ekstremumet til en funksjon av to variabler.

Utledning av formler for å finne koeffisienter.

Et system med to ligninger med to ukjente er kompilert og løst. Finne partielle deriverte av funksjoner etter variabler en og b, likestiller vi disse derivatene til null.

Vi løser det resulterende likningssystemet ved hjelp av en hvilken som helst metode (for eksempel substitusjonsmetode eller Cramers metode) og få formler for å finne koeffisienter ved bruk av minste kvadraters metode (LSM).

Med data en og b funksjon tar den minste verdien. Beviset for dette er gitt nedenfor i teksten på slutten av siden.

Det er hele metoden med minste kvadrater. Formel for å finne parameteren en inneholder summene , , og parameteren n er mengden eksperimentelle data. Verdiene av disse summene anbefales å beregnes separat.

Koeffisient b funnet etter beregning en.

Det er på tide å huske det originale eksemplet.

Løsning.

I vårt eksempel n=5. Vi fyller ut tabellen for å gjøre det lettere å beregne beløpene som er inkludert i formlene til de nødvendige koeffisientene.

Verdiene i den fjerde raden i tabellen oppnås ved å multiplisere verdiene i den andre raden med verdiene i den tredje raden for hvert tall Jeg.

Verdiene i den femte raden i tabellen oppnås ved å kvadrere verdiene i den andre raden for hvert tall Jeg.

Verdiene i den siste kolonnen i tabellen er summene av verdiene på tvers av radene.

Vi bruker formlene til minste kvadraters metode for å finne koeffisientene en og b. Vi erstatter i dem de tilsvarende verdiene fra den siste kolonnen i tabellen:

Følgelig y=0,165x+2,184 er den ønskede tilnærmede rette linjen.

Det gjenstår å finne ut hvilken av linjene y=0,165x+2,184 eller tilnærmer de opprinnelige dataene bedre, det vil si å lage et estimat ved å bruke minste kvadraters metode.

Estimering av feilen til minste kvadraters metode.

For å gjøre dette må du beregne summene av kvadrerte avvik fra de opprinnelige dataene fra disse linjene og , tilsvarer en mindre verdi en linje som bedre tilnærmer de opprinnelige dataene i form av minste kvadraters metode.

Siden , så linjen y=0,165x+2,184 tilnærmer de opprinnelige dataene bedre.

Grafisk illustrasjon av minste kvadraters metode (LSM).

Alt ser bra ut på listene. Den røde linjen er den funnet linjen y=0,165x+2,184, er den blå linjen , de rosa prikkene er de originale dataene.

Hva er det for, hva er alle disse tilnærmingene til?

Jeg bruker personlig til å løse datautjevningsproblemer, interpolasjons- og ekstrapolasjonsproblemer (i det originale eksemplet kan du bli bedt om å finne verdien av den observerte verdien yx=3 eller når x=6 i henhold til MNC-metoden). Men vi vil snakke mer om dette senere i en annen del av nettstedet.

Toppen av siden

Bevis.

Så når funnet en og b funksjonen tar den minste verdien, er det nødvendig at på dette punktet matrisen til kvadratisk form av andreordens differensial for funksjonen var positiv definitivt. La oss vise det.

Den andre ordensdifferensialen har formen:

Det er

Derfor har matrisen til den kvadratiske formen formen

og verdiene til elementene avhenger ikke av en og b.

La oss vise at matrisen er positiv bestemt. Dette krever at vinkelminorene er positive.

Kantet moll av første orden . Ulikheten er streng, siden punktene ikke er sammenfallende. Dette vil bli antydet i det følgende.

Kantet moll av andre orden

La oss bevise det metode for matematisk induksjon.

Konklusjon: funnet verdier en og b tilsvarer den minste verdien av funksjonen , derfor er de ønskede parameterne for minste kvadraters metode.

Har du noen gang forstått?
Bestill en løsning

Toppen av siden

Utvikling av en prognose ved bruk av minste kvadraters metode. Eksempel på problemløsning

Ekstrapolering er en metode Vitenskapelig forskning, som er basert på fordelingen av tidligere og nåværende trender, mønstre, forhold til fremtidig utvikling av prognoseobjektet. Ekstrapoleringsmetoder inkluderer glidende gjennomsnitt metode, metode eksponensiell utjevning, minste kvadrat-metoden.

Essens minste kvadraters metode består i å minimere summen standardavvik mellom observerte og beregnede verdier. De beregnede verdiene er funnet i henhold til den valgte ligningen - regresjonsligningen. Jo mindre avstanden er mellom de faktiske verdiene og de beregnede, desto mer nøyaktig er prognosen basert på regresjonsligningen.

Den teoretiske analysen av essensen av fenomenet som studeres, hvor endringen vises av en tidsserie, tjener som grunnlag for å velge en kurve. Betraktninger om arten av veksten av nivåene i serien blir noen ganger tatt i betraktning. Således, hvis produksjonsvekst forventes i aritmetisk progresjon, deretter utføres utjevning i en rett linje. Hvis det viser seg at veksten er inne geometrisk progresjon, så skal utjevningen utføres i henhold til eksponentialfunksjonen.

Arbeidsformelen til metoden for minste kvadrater : Y t+1 = a*X + b, hvor t + 1 er prognoseperioden; Уt+1 – predikert indikator; a og b er koeffisienter; X - symbol tid.

Koeffisientene a og b beregnes i henhold til følgende formler:

hvor, Uf - de faktiske verdiene for serien av dynamikk; n er antall nivåer i tidsserien;

Utjevningen av tidsserier med minste kvadraters metode tjener til å reflektere utviklingsmønstrene til fenomenet som studeres. I det analytiske uttrykket av en trend betraktes tid som en uavhengig variabel, og nivåene i serien fungerer som en funksjon av denne uavhengige variabelen.

Utviklingen av et fenomen avhenger ikke av hvor mange år som har gått siden utgangspunktet, men av hvilke faktorer som påvirket utviklingen, i hvilken retning og med hvilken intensitet. Fra dette er det klart at utviklingen av et fenomen i tid vises som et resultat av virkningen av disse faktorene.

Riktig innstill typen kurve, typen analytisk avhengighet av tid er en av de mest utfordrende oppgaver prediktiv analyse .

Valget av typen funksjon som beskriver trenden, hvis parametere bestemmes av minste kvadraters metode, er i de fleste tilfeller empirisk, ved å konstruere en rekke funksjoner og sammenligne dem med verdien av rotmiddelverdien. -kvadratfeil beregnet av formelen:

hvor Uf - de faktiske verdiene for serien med dynamikk; Ur - beregnede (utjevnede) verdier av tidsserien; n er antall nivåer i tidsserien; p er antall parametere definert i formlene som beskriver trenden (utviklingstrend).

Ulemper med minste kvadraters metode :

  • når man prøver å beskrive det økonomiske fenomenet som studeres ved hjelp av matematisk ligning, vil prognosen være nøyaktig i en kort periode, og regresjonsligningen bør beregnes på nytt etter hvert som ny informasjon blir tilgjengelig;
  • kompleksiteten i utvalget av regresjonsligningen, som kan løses ved bruk av standard dataprogrammer.

Et eksempel på bruk av minste kvadraters metode for å utvikle en prognose

En oppgave . Det finnes data som karakteriserer nivået på arbeidsledigheten i regionen, %

  • Bygg en prognose for arbeidsledigheten i regionen for månedene november, desember, januar, ved å bruke metodene: glidende gjennomsnitt, eksponentiell utjevning, minste kvadrater.
  • Beregn feilene i de resulterende prognosene ved å bruke hver metode.
  • Sammenlign de oppnådde resultatene, trekk konklusjoner.

Minste kvadraters løsning

For løsningen vil vi sette sammen en tabell der vi vil gjøre de nødvendige beregningene:

ε = 28,63/10 = 2,86 % prognosenøyaktighet høy.

Konklusjon : Sammenligning av resultatene oppnådd i beregningene glidende gjennomsnittsmetode , eksponensiell utjevning og minste kvadraters metode, kan vi si at gjennomsnittet relativ feil når den beregnes med eksponentiell utjevningsmetode, faller den innenfor 20-50 %. Dette betyr at prediksjonsnøyaktigheten denne saken er bare tilfredsstillende.

I det første og tredje tilfellet er prognosenøyaktigheten høy, siden den gjennomsnittlige relative feilen er mindre enn 10 %. Men metoden med glidende gjennomsnitt gjorde det mulig å oppnå mer pålitelige resultater (prognose for november - 1,52%, prognose for desember - 1,53%, prognose for januar - 1,49%), siden den gjennomsnittlige relative feilen ved bruk av denne metoden er den minste - 1 ,1. 3%.

Minste kvadratiske metode

Andre relaterte artikler:

Liste over kilder som er brukt

  1. Vitenskapelige og metodiske anbefalinger om diagnostisering av sosiale risikoer og prognoser for utfordringer, trusler og sosiale konsekvenser. russisk stat sosialt universitet. Moskva. 2010;
  2. Vladimirova L.P. Prognoser og planlegging under markedsforhold: Pros. godtgjørelse. M.: Forlag"Dashkov og Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Prognoser nasjonal økonomi: Læremiddel. Jekaterinburg: Forlag Ural. stat økonomi universitet, 2007;
  4. Slutskin L.N. MBA-kurs i forretningsprognoser. Moskva: Alpina Business Books, 2006.

MNE-program

Skriv inn data

Data og tilnærming y = a + b x

Jeg- nummeret på forsøkspunktet;
x i- verdien av den faste parameteren på punktet Jeg;
y jeg- verdien av den målte parameteren på punktet Jeg;
ω i- målingsvekt på punkt Jeg;
yi, beregnet.- forskjellen mellom den målte verdien og verdien beregnet fra regresjonen y på punktet Jeg;
S x i (x i)- feilestimat x i ved måling y på punktet Jeg.

Data og tilnærming y = k x

Jeg x i y jeg ω i yi, beregnet. Δy i S x i (x i)

Klikk på diagrammet

Brukerhåndbok for MNC online-programmet.

I datafeltet skriver du inn verdiene for "x" og "y" på hver separate linje på ett eksperimentelt punkt. Verdier må skilles med mellomrom (mellomrom eller tabulator).

Den tredje verdien kan være poengvekten til "w". Hvis punktvekten ikke er spesifisert, er den lik én. I det overveldende flertallet av tilfellene er vekten av forsøkspunktene ukjent eller ikke beregnet; alle eksperimentelle data anses som likeverdige. Noen ganger er vektene i det studerte verdiområdet definitivt ikke ekvivalente og kan til og med beregnes teoretisk. For eksempel, i spektrofotometri, kan vekter beregnes ved hjelp av enkle formler, selv om i utgangspunktet alle neglisjerer dette for å redusere arbeidskostnadene.

Data kan limes inn gjennom utklippstavlen fra et regneark for en kontorpakke, for eksempel Excel fra Microsoft Office eller Calc fra Open Office. For dette i regneark uthev rekkevidden av data som skal kopieres, kopier til utklippstavlen og lim inn dataene i datafeltet på denne siden.

For å beregne med minste kvadraters metode, kreves det minst to punkter for å bestemme to koeffisienter `b` - tangenten til helningsvinkelen til den rette linjen og `a` - verdien avskåret av den rette linjen på `y ` akse.

For å estimere feilen til de beregnede regresjonskoeffisientene, er det nødvendig å sette antall eksperimentelle punkter til mer enn to.

Minste kvadraters metode (LSM).

Jo større antall eksperimentelle poeng, jo mer nøyaktig statistisk evaluering koeffisienter (på grunn av reduksjonen i studentens koeffisient) og jo nærmere estimatet er estimatet for det generelle utvalget.

Innhenting av verdier på hvert eksperimentelt punkt er ofte forbundet med betydelige arbeidskostnader, derfor blir det ofte utført et kompromiss antall eksperimenter, noe som gir et fordøyelig estimat og ikke fører til for høye arbeidskostnader. Som regel velges antall eksperimentelle punkter for en lineær minste kvadraters avhengighet med to koeffisienter i området 5-7 poeng.

En kort teori om minste kvadrater for lineær avhengighet

Anta at vi har et sett med eksperimentelle data i form av par med verdier [`y_i`, `x_i`], der `i` er tallet på én eksperimentell måling fra 1 til `n`; `y_i` - verdien av den målte verdien ved punktet `i`; `x_i` - verdien av parameteren vi satte i punktet `i`.

Et eksempel er driften av Ohms lov. Ved å endre spenningen (potensialforskjell) mellom seksjonene elektrisk krets, måler vi mengden strøm som går gjennom denne delen. Fysikken gir oss avhengigheten funnet eksperimentelt:

`I=U/R`,
hvor `I` - strømstyrke; `R` - motstand; `U` - spenning.

I dette tilfellet er `y_i` den målte strømverdien, og `x_i` er spenningsverdien.

Som et annet eksempel, tenk på absorpsjonen av lys av en løsning av et stoff i løsning. Kjemi gir oss formelen:

`A = εl C`,
hvor "A" er den optiske tettheten til løsningen; `ε` - transmittans av oppløst stoff; `l` - banelengde når lys passerer gjennom en kyvette med en løsning; `C` er konsentrasjonen av det oppløste stoffet.

I dette tilfellet er `y_i` den målte optiske tettheten `A`, og `x_i` er konsentrasjonen av stoffet vi angir.

Vi vil vurdere tilfellet når den relative feilen i innstillingen 'x_i' er mye mindre, relativ feil mål «y_i». Vi vil også anta at alle målte verdier av `y_i` er tilfeldige og normalfordelte, dvs. lyde normal lov fordeling.

I tilfellet med en lineær avhengighet av `y` av `x`, kan vi skrive den teoretiske avhengigheten:
`y = a + bx`.

FRA geometrisk punkt sett, angir koeffisienten "b" tangenten til linjens helningsvinkel til "x"-aksen, og koeffisienten "a" - verdien av "y" ved skjæringspunktet mellom linjen og " y`-aksen (for `x = 0`).

Finne parametrene til regresjonslinjen.

I eksperimentet kan ikke de målte verdiene til `y_i` ligge nøyaktig på den teoretiske linjen på grunn av målefeil, som alltid er iboende i det virkelige liv. Derfor må en lineær ligning representeres av et ligningssystem:
`y_i = a + b x_i + ε_i` (1),
der "ε_i" er den ukjente målefeilen til "y" i det "i" eksperimentet.

Avhengighet (1) kalles også regresjon, dvs. avhengigheten av de to størrelsene av hverandre med statistisk signifikans.

Oppgaven med å gjenopprette avhengigheten er å finne koeffisientene `a` og `b` fra forsøkspunktene [`y_i`, `x_i`].

For å finne koeffisientene brukes vanligvis `a` og `b` minste kvadrat-metoden(MNK). Det er et spesielt tilfelle av maksimum sannsynlighetsprinsippet.

La oss omskrive (1) som `ε_i = y_i - a - b x_i`.

Da blir summen av kvadrerte feil
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Prinsippet for minste kvadraters metode er å minimere summen (2) med hensyn til parameterne `a` og `b`.

Minimumet nås når de partielle deriverte av summen (2) med hensyn til koeffisientene `a` og `b` er lik null:
`frac(delvis Φ)(delvis a) = frac(delsum_(i=1)^(n) (y_i - a - b x_i)^2)(delvis a) = 0`
`frac(delvis Φ)(delvis b) = frac(delsum_(i=1)^(n) (y_i - a - b x_i)^2)(delvis b) = 0`

Ved å utvide de deriverte får vi et system med to ligninger med to ukjente:
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Vi åpner parentesene og overfører summene uavhengig av de ønskede koeffisientene til den andre halvdelen, vi får et system med lineære ligninger:
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

Ved å løse det resulterende systemet finner vi formler for koeffisientene `a` og `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n) ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.2)

Disse formlene har løsninger når `n > 1` (linjen kan tegnes med minst 2 punkter) og når determinanten `D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1) )^(n) x_i)^2 != 0`, dvs. når «x_i»-punktene i eksperimentet er forskjellige (dvs. når linjen ikke er vertikal).

Estimering av feil i koeffisientene til regresjonslinjen

For et mer nøyaktig estimat av feilen ved beregning av koeffisientene `a` og `b`, er det ønskelig et stort nummer av eksperimentelle punkter. Når `n = 2`, er det umulig å estimere feilen til koeffisientene, fordi den tilnærmede linjen vil unikt gå gjennom to punkter.

Feil tilfeldig variabel`V` er definert lov om feilakkumulering
`S_V^2 = sum_(i=1)^p (frac(delvis f)(delvis z_i))^2 S_(z_i)^2`,
hvor `p` er antall `z_i`-parametere med `S_(z_i)`-feil som påvirker `S_V`-feilen;
`f` er en avhengighetsfunksjon av `V` på `z_i`.

La oss skrive loven om akkumulering av feil for feilen til koeffisientene `a` og `b`
`S_a^2 = sum_(i=1)^(n)(frac(delvis a)(delvis y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(delvis a) )(delvis x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(delvis a)(delvis y_i))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(delvis b)(delvis y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(delvis b )(delvis x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(delvis b)(delvis y_i))^2 `,
fordi `S_(x_i)^2 = 0` (vi har tidligere tatt forbehold om at feilen til `x` er ubetydelig).

`S_y^2 = S_(y_i)^2` - feil (varians, kvadratisk standardavvik) i «y»-dimensjonen, forutsatt at feilen er enhetlig for alle «y»-verdier.

Ved å erstatte formler for å beregne `a` og `b` i de resulterende uttrykkene, får vi

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

I de fleste virkelige eksperimenter måles ikke verdien av "Sy". For å gjøre dette er det nødvendig å utføre flere parallelle målinger (eksperimenter) på ett eller flere punkter i planen, noe som øker tiden (og muligens kostnaden) for eksperimentet. Derfor antas det vanligvis at avviket til `y` fra regresjonslinjen kan betraktes som tilfeldig. Variansestimatet "y" i dette tilfellet beregnes ved hjelp av formelen.

`S_y^2 = S_(y, hvile)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)".

Divisoren `n-2` vises fordi vi har redusert antall frihetsgrader på grunn av beregningen av to koeffisienter for samme utvalg av eksperimentelle data.

Dette estimatet kalles også restvariansen i forhold til regresjonslinjen `S_(y, rest)^2`.

Vurderingen av koeffisientenes betydning foretas etter Studentens kriterium

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Hvis det beregnede kriteriet `t_a`, er `t_b` mindre enn tabellkriterier`t(P, n-2)`, da anses det at den tilsvarende koeffisienten ikke er signifikant forskjellig fra null med en gitt sannsynlighet `P`.

For å vurdere kvaliteten på beskrivelsen av et lineært forhold, kan du sammenligne `S_(y, hvile)^2` og `S_(bar y)` i forhold til gjennomsnittet ved å bruke Fisher-kriteriet.

`S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i= 1)^n y_i) /n)^2) (n-1)` - prøveevaluering variansen til "y" i forhold til gjennomsnittet.

For å evaluere effektiviteten til regresjonsligningen for å beskrive avhengigheten, beregnes Fisher-koeffisienten
`F = S_(takt y) / S_(y, hvile)^2`,
som sammenlignes med den tabellformede Fisher-koeffisienten `F(p, n-1, n-2)`.

Hvis `F > F(P, n-1, n-2)`, regnes forskjellen mellom beskrivelsen av avhengigheten `y = f(x)` ved bruk av regresjonsligningen og beskrivelsen som bruker gjennomsnittet statistisk signifikant med sannsynlighet `P`. De. regresjonen beskriver avhengigheten bedre enn spredningen av `y` rundt gjennomsnittet.

Klikk på diagrammet
for å legge til verdier til tabellen

Minste kvadratiske metode. Metoden med minste kvadrater betyr bestemmelse av ukjente parametere a, b, c, den aksepterte funksjonelle avhengigheten

Metoden med minste kvadrater betyr bestemmelse av ukjente parametere a, b, c, … akseptert funksjonell avhengighet

y = f(x,a,b,c,...),

som ville gi et minimum av middelkvadraten (variansen) av feilen

, (24)

hvor x i , y i - sett med tallpar hentet fra eksperimentet.

Siden betingelsen for ekstremumet til en funksjon av flere variabler er betingelsen om at dens partielle deriverte er lik null, vil parametrene a, b, c, … bestemmes ut fra ligningssystemet:

; ; ; … (25)

Det må huskes at minste kvadraters metode brukes til å velge parametere etter formen til funksjonen y = f(x) definert.

Hvis det ikke kan trekkes konklusjoner fra teoretiske betraktninger om hva som bør være empirisk formel, så må man følge med visuelle representasjoner, primært en grafisk representasjon av de observerte dataene.

I praksis, oftest begrenset til følgende typer funksjoner:

1) lineær ;

2) kvadratisk a .

Hvis noen fysisk mengde avhenger av en annen mengde, så kan denne avhengigheten studeres ved å måle y at ulike verdier x . Som et resultat av målinger oppnås en rekke verdier:

x 1, x 2, ..., xi, ..., xn;

y 1 , y 2 , ... , y i , ... , y n .

Basert på dataene fra et slikt eksperiment er det mulig å plotte avhengigheten y = ƒ(x). Den resulterende kurven gjør det mulig å bedømme formen til funksjonen ƒ(x). men konstante koeffisienter, som er inkludert i denne funksjonen, forblir ukjent. De kan bestemmes ved hjelp av minste kvadraters metode. Forsøkspunktene ligger som regel ikke nøyaktig på kurven. Metoden med minste kvadrater krever at summen av de kvadrerte avvikene til forsøkspunktene fra kurven, dvs. 2 var den minste.

I praksis brukes denne metoden oftest (og enklest) ved lineær sammenheng, dvs. når

y=kx eller y = a + bx.

Lineær avhengighet er svært utbredt i fysikk. Og selv når avhengigheten er ikke-lineær, prøver de vanligvis å bygge en graf på en slik måte at de får en rett linje. For eksempel, hvis det antas at brytningsindeksen til glass n er relatert til bølgelengden λ til lysbølgen ved forholdet n = a + b/λ 2, så plottes avhengigheten av n av λ -2 på grafen .

Vurder avhengigheten y=kx(rett linje som går gjennom origo). La oss komponere verdien φ summen av de kvadrerte avvikene til punktene våre fra den rette linjen

Verdien av φ er alltid positiv og viser seg å være jo mindre, jo nærmere punktene våre ligger den rette linjen. Metoden med minste kvadrater sier at for k skal man velge en slik verdi hvor φ har et minimum


eller
(19)

Beregningen viser at rot-middel-kvadratfeilen ved å bestemme verdien av k er lik

, (20)
hvor n er antall dimensjoner.

La oss nå se på noen flere vanskelig sak når punktene må tilfredsstille formelen y = a + bx(en rett linje som ikke går gjennom origo).

Oppgaven er å finne det gitte settet med verdier x i, y i beste verdier a og b.

La oss komponere igjen kvadratisk form φ , lik summen kvadrerte avvik av punktene x i, y i fra en rett linje

og finn verdiene a og b som φ har et minimum for

;

.

.

Felles vedtak disse ligningene gir

(21)

Rot-middel-kvadrat-feilene for å bestemme a og b er like

(23)

.  (24)

Når måleresultatene behandles med denne metoden, er det praktisk å oppsummere alle dataene i en tabell der alle beløpene som er inkludert i formlene (19)(24) er foreløpig beregnet. Formene til disse tabellene er vist i eksemplene nedenfor.

Eksempel 1 Den grunnleggende ligningen for dynamikk ble studert roterende bevegelseε = M/J (rett linje som går gjennom origo). Ved forskjellige verdier for øyeblikket M ble det målt vinkelakselerasjonε av en eller annen kropp. Det er nødvendig å bestemme treghetsmomentet til denne kroppen. Resultatene av målinger av kraftmomentet og vinkelakselerasjonen er oppført i andre og tredje kolonne tabeller 5.

Tabell 5
n M, N m e, s-1 M2 M e e - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Ved formel (19) bestemmer vi:

.

For å bestemme rot-middel-kvadrat-feilen bruker vi formel (20)

0.005775kg-en · m -2 .

Ved formel (18) har vi

; .

SJ = (2,996 0,005775)/0,3337 = 0,05185 kg m 2.

Gitt påliteligheten P = 0,95 , i henhold til tabellen over Student-koeffisienter for n = 5, finner vi t = 2,78 og bestemmer den absolutte feilen ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kg m 2.

Vi skriver resultatene i skjemaet:

J = (3,0 ± 0,2) kg m 2;


Eksempel 2 Vi beregner temperaturkoeffisienten for motstanden til metallet ved å bruke minste kvadraters metode. Motstand avhenger av temperatur i henhold til en lineær lov

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °.

Frileddet bestemmer motstanden R 0 ved en temperatur på 0 ° C, og skråningsproduktet temperaturkoeffisientα til motstanden R 0 .

Resultatene av målinger og beregninger er gitt i tabellen ( se tabell 6).

Tabell 6
n t°, s r, Ohm t-¯t (t-¯t) 2 (t-¯t)r r-bt-a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Ved formler (21), (22) bestemmer vi

R 0 = ¯ R- α R 0 ¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Ohm.

La oss finne en feil i definisjonen av α. Siden har vi ved formel (18):

.

Ved å bruke formler (23), (24) har vi

;

0.014126 Ohm.

Gitt påliteligheten P = 0,95, i henhold til tabellen over Students koeffisienter for n = 6, finner vi t = 2,57 og bestemmer den absolutte feilen Δα = 2,57 0,000132 = 0,000338 grader -1.

a = (23 ± 4) 10-4 hagl-1 ved P = 0,95.


Eksempel 3 Det er nødvendig å bestemme krumningsradiusen til linsen fra Newtons ringer. Radiene til Newtons ringer r m ble målt og antallet av disse ringene m ble bestemt. Radiene til Newtons ringer er relatert til krumningsradiusen til linsen R og ringtallet ved ligningen

r 2 m = mλR - 2d 0 R,

hvor d 0 tykkelsen på gapet mellom linsen og den planparallelle platen (eller linsedeformasjonen),

λ er bølgelengden til det innfallende lyset.

X = (600 ± 6) nm;
r2m = y;
m = x;
λR = b;
-2d 0 R = a,

da vil ligningen ta formen y = a + bx.

.

Resultatene av målinger og beregninger legges inn tabell 7.

Tabell 7
n x = m y \u003d r 2, 10 -2 mm 2 m-¯m (m-¯m) 2 (m-¯m)y y-bx-a, 10-4 (y - bx - a) 2, 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

som finner den bredeste anvendelsen i ulike områder vitenskap og praktiske aktiviteter. Det kan være fysikk, kjemi, biologi, økonomi, sosiologi, psykologi og så videre og så videre. Etter skjebnens vilje må jeg ofte forholde meg til økonomien, og derfor vil jeg i dag ordne for deg en billett til fantastisk land har krav på Økonometri=) … Hvordan vil du ikke ha det?! Det er veldig bra der - du må bare bestemme deg! ...Men det du sannsynligvis vil er å lære å løse problemer minste kvadrater. Og spesielt flittige lesere vil lære å løse dem ikke bare nøyaktig, men også VELDIG RASK ;-) Men først generell problemstilling+ relatert eksempel:

Slipp inn noen fagområde indikatorer som har et kvantitativt uttrykk undersøkes. Samtidig er det all grunn til å tro at indikatoren er avhengig av indikatoren. Denne antakelsen kan være vitenskapelig hypotese, og basert på det elementære sunn fornuft. La oss imidlertid legge vitenskapen til side og utforske mer appetittvekkende områder – nemlig dagligvarebutikker. Angi med:

– butikkareal til en dagligvarebutikk, kvm,
- årlig omsetning for en dagligvarebutikk, millioner rubler.

Det er helt klart hva mer område butikk, jo større er omsetningen i de fleste tilfeller.

Anta at etter å ha utført observasjoner / eksperimenter / beregninger / dans med en tamburin, har vi numeriske data til vår disposisjon:

Med dagligvarebutikker tror jeg alt er klart: - dette er arealet til den første butikken, - dens årlige omsetning, - arealet til den andre butikken, - dens årlige omsetning, etc. Det er forresten ikke nødvendig å ha tilgang til klassifiserte materialer- nok nøyaktig estimat omsetning kan oppnås ved hjelp av matematisk statistikk. Imidlertid, ikke bli distrahert, løpet av kommersiell spionasje er allerede betalt =)

Tabelldata kan også skrives i form av punkter og avbildes på vanlig måte for oss. Kartesisk system .

Vi vil svare viktig spørsmål: hvor mange poeng trenger du kvalitativ forskning?

Jo større jo bedre. Minste tillatte sett består av 5-6 poeng. I tillegg, med en liten mengde data, bør ikke "unormale" resultater inkluderes i utvalget. Så, for eksempel, kan en liten elitebutikk hjelpe størrelsesordener mer enn "deres kolleger", og dermed forvrenge generelt mønster, som er å finne!

Hvis det er ganske enkelt, må vi velge en funksjon, rute som passerer så nærme punktene som mulig . En slik funksjon kalles tilnærmet (tilnærming - tilnærming) eller teoretisk funksjon . Generelt sett dukker her umiddelbart opp den åpenbare "søkeren" - polynomet høy grad, hvis graf går gjennom ALLE punkter. Men dette alternativet er komplisert, og ofte rett og slett feil. (fordi diagrammet vil "vinde" hele tiden og reflekterer hovedtrenden dårlig).

Dermed må den ønskede funksjonen være tilstrekkelig enkel og samtidig reflektere avhengigheten tilstrekkelig. Som du kanskje gjetter, kalles en av metodene for å finne slike funksjoner minste kvadrater. Først, la oss analysere essensen i generelt syn. La en funksjon tilnærme de eksperimentelle dataene:


Hvordan evaluere nøyaktigheten av denne tilnærmingen? La oss også beregne forskjellene (avvikene) mellom de eksperimentelle og funksjonelle verdier (vi studerer tegningen). Den første tanken som dukker opp er å anslå hvor stor summen er, men problemet er at forskjellene kan være negative. (for eksempel, ) og avvik som følge av slik summering vil oppheve hverandre. Derfor, som et estimat for nøyaktigheten av tilnærmingen, foreslår den seg selv å ta summen moduler avvik:

eller i foldet form: (plutselig, hvem vet ikke: er sum-ikonet, og er en hjelpevariabel - "teller", som tar verdier fra 1 til ).

Tilnærming av eksperimentelle poeng med ulike funksjoner, vil vi få forskjellige betydninger, og åpenbart, der denne summen er mindre, er denne funksjonen mer nøyaktig.

En slik metode finnes og kalles minste modul metoden. Men i praksis har det blitt mye mer utbredt. minste kvadrat-metoden, der det mulig negative verdier elimineres ikke av modulen, men ved å kvadrere avvikene:

, hvoretter innsatsen rettes mot valg av en slik funksjon at summen av kvadrerte avvik var så liten som mulig. Faktisk, derav navnet på metoden.

Og nå er vi tilbake til en annen viktig poeng: som nevnt ovenfor, bør den valgte funksjonen være ganske enkel - men det er også mange slike funksjoner: lineær , hyperbolsk, eksponentiell, logaritmisk, kvadratisk etc. Og her vil jeg selvsagt umiddelbart «redusere aktivitetsfeltet». Hvilken klasse funksjoner å velge for forskning? Primitivt men effektivt mottak:

- Den enkleste måten å trekke poeng på på tegningen og analyser deres plassering. Hvis de har en tendens til å være i en rett linje, bør du se etter rettlinjeligning med optimale verdier og . Oppgaven er med andre ord å finne SLIKE koeffisienter – slik at summen av de kvadrerte avvikene blir minst.

Hvis punktene er plassert for eksempel langs overdrivelse, så er det klart at den lineære funksjonen vil gi en dårlig tilnærming. I dette tilfellet ser vi etter de mest "gunstige" koeffisientene for hyperbelligningen - de som gir minimumsummen av kvadrater .

Legg nå merke til at i begge tilfeller snakker vi om funksjoner til to variabler, hvis argumenter er søkte på avhengighetsalternativer:

Og i hovedsak må vi løse et standardproblem - å finne minimum av en funksjon av to variabler.

Husk eksempelet vårt: anta at "butikk"-punktene har en tendens til å være plassert i en rett linje, og det er all grunn til å tro at de er tilstede lineær avhengighet omsetning fra handelsområdet. La oss finne SLIKE koeffisienter "a" og "være" slik at summen av kvadrerte avvik var den minste. Alt som vanlig - først partielle derivater av 1. orden. I følge linearitetsregel du kan skille rett under sum-ikonet:

Hvis du vil bruke denne informasjonen for et essay eller en semesteroppgave - jeg vil være veldig takknemlig for lenken i kildelisten, du finner slike detaljerte beregninger noen få steder:

La oss lage et standard system:

Vi reduserer hver ligning med en "to", og i tillegg "bryter vi fra hverandre" summene:

Merk : analyser uavhengig hvorfor "a" og "be" kan tas ut av sumikonet. Forresten, formelt sett kan dette gjøres med summen

La oss omskrive systemet i en "anvendt" form:

hvoretter algoritmen for å løse problemet vårt begynner å bli tegnet:

Kjenner vi koordinatene til punktene? Vi vet. Summer kan vi finne? Enkelt. Vi komponerer det enkleste system av to lineære ligninger med to ukjente("a" og "beh"). Vi løser systemet f.eks. Cramers metode, resulterer i stasjonært punkt. Sjekker tilstrekkelig tilstand for et ekstremum, kan vi bekrefte at funksjonen på dette tidspunktet når presist minimum. Verifikasjon er forbundet med tilleggsberegninger og derfor vil vi legge det bak kulissene. (om nødvendig kan den manglende rammen sees). Vi trekker den endelige konklusjonen:

Funksjon den beste måten (i det minste sammenlignet med en hvilken som helst annen lineær funksjon) bringer eksperimentelle poeng nærmere . Grovt sett passerer grafen så nært disse punktene som mulig. I tradisjon økonometri den resulterende tilnærmelsesfunksjonen kalles også parligning lineær regresjon .

Problemet som vurderes har et stort praktisk verdi. I situasjonen med vårt eksempel, ligningen lar deg forutsi hva slags omsetning ("yig") vil være på butikken med en eller annen verdi av salgsarealet (en eller annen betydning av "x"). Ja, den resulterende prognosen vil bare være en prognose, men i mange tilfeller vil den vise seg å være ganske nøyaktig.

Jeg vil analysere bare ett problem med "ekte" tall, siden det ikke er noen problemer med det - alle beregninger er på nivået skolepensum 7-8 klasse. I 95 prosent av tilfellene vil du bli bedt om å finne bare en lineær funksjon, men helt på slutten av artikkelen vil jeg vise at det ikke er vanskeligere å finne ligningene for den optimale hyperbelen, eksponenten og noen andre funksjoner.

Faktisk gjenstår det å distribuere de lovede godsakene - slik at du lærer hvordan du løser slike eksempler ikke bare nøyaktig, men også raskt. Vi studerer standarden nøye:

En oppgave

Som et resultat av å studere forholdet mellom to indikatorer, ble følgende tallpar oppnådd:

Bruk minste kvadraters metode, finn den lineære funksjonen som best tilnærmer empirien (opplevde) data. Lag en tegning der i kartesisk rektangulært system koordinater for å bygge eksperimentelle punkter og en graf over den tilnærmede funksjonen . Finn summen av kvadrerte avvik mellom empiriske og teoretiske verdier. Finn ut om funksjonen er bedre (i form av minste kvadraters metode) omtrentlige eksperimentelle poeng.

Merk at "x"-verdier er naturlige verdier, og dette har en karakteristisk meningsfull betydning, som jeg vil snakke om litt senere; men de kan selvfølgelig være brøkdeler. I tillegg, avhengig av innholdet i en bestemt oppgave, kan både "X" og "G" verdier være helt eller delvis negative. Vel, vi har fått en "ansiktsløs" oppgave, og vi starter den løsning:

Vi finner koeffisientene til den optimale funksjonen som en løsning på systemet:

For en mer kompakt notasjon kan "teller"-variabelen utelates, siden det allerede er klart at summeringen utføres fra 1 til .

Det er mer praktisk å beregne de nødvendige beløpene i tabellform:


Beregninger kan utføres på en mikrokalkulator, men det er mye bedre å bruke Excel - både raskere og uten feil; se en kort video:

Dermed får vi følgende system:

Her kan du gange den andre ligningen med 3 og trekk 2. fra 1. ligning ledd for ledd. Men dette er flaks - i praksis er systemer ofte ikke begavede, og i slike tilfeller sparer det Cramers metode:
, så systemet har en unik løsning.

La oss ta en sjekk. Jeg forstår at jeg ikke vil, men hvorfor hoppe over feil der du absolutt ikke kan gå glipp av dem? Erstatt den funnet løsningen på venstre side av hver likning av systemet:

Høyre sider mottatt tilsvarende ligninger, som betyr at systemet er løst riktig.

Dermed vil den ønskede tilnærmelsesfunksjonen: – fra alle lineære funksjoner eksperimentelle data er best tilnærmet med det.

I motsetning til rett avhengighet av butikkens omsetning på sitt område, er den funnet avhengighet omvendt (prinsippet "jo mer - jo mindre"), og dette faktum avsløres umiddelbart av det negative vinkelkoeffisient. Funksjon informerer oss om at med en økning i en viss indikator med 1 enhet, synker verdien av den avhengige indikatoren gjennomsnitt med 0,65 enheter. Som de sier, jo høyere pris på bokhvete, jo mindre solgt.

For å plotte den tilnærmede funksjonen finner vi to av dens verdier:

og utfør tegningen:


Den konstruerte linjen kalles trendlinje (nemlig en lineær trendlinje, dvs. in generell sak trend er ikke nødvendigvis en rett linje). Alle kjenner til uttrykket «å være i trend», og jeg tenker at dette begrepet ikke trenger ytterligere kommentarer.

Regn ut summen av kvadrerte avvik mellom empiriske og teoretiske verdier. Geometrisk er dette summen av kvadratene av lengdene til de "crimson" segmentene (hvorav to er så små at du ikke engang kan se dem).

La oss oppsummere beregningene i en tabell:


De kan igjen utføres manuelt, i tilfelle jeg skal gi et eksempel for det første punktet:

men det er mye mer effektivt å gjøre på en bestemt måte:

La oss gjenta: hva er meningen med resultatet? Fra alle lineære funksjoner funksjon eksponenten er den minste, det vil si at den er den beste tilnærmingen i familien. Og her er forresten ikke tilfeldig. siste spørsmål problemer: hva om den foreslåtte eksponentielle funksjonen vil det være bedre å tilnærme de eksperimentelle punktene?

La oss finne den tilsvarende summen av kvadrerte avvik - for å skille dem, vil jeg utpeke dem med bokstaven "epsilon". Teknikken er nøyaktig den samme:


Og igjen for hver brannberegning for 1. poeng:

I Excel bruker vi standard funksjon EXP (Syntaks finner du i Excel Hjelp).

Konklusjon: , så eksponentialfunksjonen tilnærmer forsøkspunktene dårligere enn den rette linjen .

Men det skal bemerkes her at "verre" er betyr ikke ennå, hva er galt. Nå har jeg bygget en graf av denne eksponentielle funksjonen – og den passerer også nærme punktene - så mye at uten en analytisk studie er det vanskelig å si hvilken funksjon som er mer nøyaktig.

Dette fullfører løsningen, og jeg kommer tilbake til spørsmålet om naturverdiene til argumentet. I ulike studier er som regel økonomiske eller sosiologiske, måneder, år eller andre like tidsintervaller nummerert med naturlig "X". Tenk for eksempel på et slikt problem.

Den har mange applikasjoner, da den tillater en omtrentlig representasjon av en gitt funksjon med andre enklere. LSM kan være ekstremt nyttig i å behandle observasjoner, og det brukes aktivt til å estimere noen mengder fra resultatene av målinger av andre som inneholder tilfeldige feil. I denne artikkelen lærer du hvordan du implementerer minste kvadraters beregninger i Excel.

Uttalelse av problemet på et spesifikt eksempel

Anta at det er to indikatorer X og Y. Y er dessuten avhengig av X. Siden OLS er av interesse for oss fra et synspunkt om regresjonsanalyse (i Excel implementeres metodene ved hjelp av innebygde funksjoner), bør vi umiddelbart fortsette å vurdere et spesifikt problem.

Så la X være handelsområde dagligvarebutikk, målt i kvadratmeter, og Y er den årlige omsetningen, definert i millioner av rubler.

Det kreves å lage en prognose for hvilken omsetning (Y) butikken vil ha dersom den har et eller annet handelsareal. Det er klart at funksjonen Y = f (X) øker, siden hypermarkedet selger flere varer enn boden.

Noen få ord om riktigheten av de første dataene som brukes til prediksjon

La oss si at vi har en tabell bygget med data for n butikker.

I følge matematisk statistikk, vil resultatene være mer eller mindre korrekte dersom dataene på minst 5-6 objekter undersøkes. "Anomale" resultater kan heller ikke brukes. Spesielt kan en liten elitebutikk ha en omsetning mange ganger større enn omsetningen til store utsalgssteder i "masmarket"-klassen.

Essensen av metoden

Tabelldataene kan vises i Kartesisk fly i form av punktene M 1 (x 1, y 1), ... M n (x n, y n). Nå vil løsningen av problemet reduseres til valget av en tilnærmet funksjon y = f (x), som har en graf som passerer så nært som mulig punktene M 1, M 2, .. M n .

Selvfølgelig kan du bruke et polynom i høy grad, men dette alternativet er ikke bare vanskelig å implementere, men rett og slett feil, siden det ikke vil gjenspeile hovedtrenden som må oppdages. Den mest fornuftige løsningen er å søke etter en rett linje y = ax + b, som best tilnærmer de eksperimentelle dataene, og mer presist koeffisientene - a og b.

Nøyaktighetspoeng

For enhver tilnærming er vurderingen av nøyaktigheten av spesiell betydning. Angi med e i forskjellen (avvik) mellom funksjonelle og eksperimentelle verdier for punktet x i, dvs. e i = y i - f (x i).

For å vurdere nøyaktigheten til tilnærmingen kan du selvsagt bruke summen av avvik, dvs. når du velger en rett linje for en omtrentlig representasjon av avhengigheten av X av Y, bør den som har den minste verdien av Y foretrekkes. summen e i på alle punkter under vurdering. Imidlertid er ikke alt så enkelt, siden sammen med positive avvik vil det praktisk talt være negative.

Du kan løse problemet ved å bruke avviksmodulene eller kvadratene deres. Den siste metoden fikk mest bred bruk. Den brukes på mange områder, inkludert regresjonsanalyse(i Excel utføres implementeringen ved hjelp av to innebygde funksjoner), og har lenge bevist sin effektivitet.

Minste kvadratiske metode

I Excel, som du vet, er det en innebygd autosum-funksjon som lar deg beregne verdiene til alle verdier i det valgte området. Dermed vil ingenting hindre oss i å beregne verdien av uttrykket (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

I matematisk notasjon ser dette slik ut:

Siden beslutningen opprinnelig ble tatt om å tilnærme ved hjelp av en rett linje, har vi:

Oppgaven med å finne en rett linje som best beskriver et spesifikt forhold mellom X og Y, utgjør derfor å beregne minimum av en funksjon av to variabler:

Dette krever å likestille med null partielle deriverte med hensyn til nye variabler a og b, og løse et primitivt system som består av to ligninger med 2 ukjente av formen:

Etter enkle transformasjoner, inkludert å dele på 2 og manipulere summene, får vi:

Ved å løse det, for eksempel ved Cramers metode, får vi et stasjonært punkt med visse koeffisienter a * og b * . Dette er minimum, dvs. for å forutsi hvilken omsetning butikken vil ha når bestemt område, vil den rette linjen y \u003d a * x + b * gjøre, som er regresjonsmodell for det aktuelle eksemplet. Selvfølgelig lar hun deg ikke finne eksakt resultat, men vil hjelpe deg med å få en ide om hvorvidt det vil lønne seg å kjøpe en butikk på kreditt for et bestemt område.

Hvordan implementere minste kvadraters metode i Excel

Excel har en funksjon for å beregne verdien av minste kvadrater. Hun har neste visning: "TREND" (kjente Y-verdier; kjente X-verdier; nye X-verdier; konstant). La oss bruke formelen for å beregne OLS i Excel på tabellen vår.

For å gjøre dette, i cellen der resultatet av beregningen ved hjelp av minste kvadraters metode i Excel skal vises, skriv inn "="-tegnet og velg "TREND" -funksjonen. Fyll ut de aktuelle feltene i vinduet som åpnes, og uthev:

  • rekke kjente verdier for Y (i dette tilfellet data for omsetning);
  • rekkevidde x 1 , …x n , dvs. størrelsen på butikklokaler;
  • både kjent og ukjente verdier x, som du trenger for å finne ut størrelsen på omsetningen (for informasjon om deres plassering på regnearket, se nedenfor).

I tillegg er det en logisk variabel "Const" i formelen. Hvis du skriver inn 1 i feltet som tilsvarer det, vil dette bety at beregninger skal utføres, forutsatt at b \u003d 0.

Hvis du trenger å vite prognosen for mer enn én x-verdi, bør du ikke trykke "Enter" etter å ha skrevet inn formelen, men du må skrive kombinasjonen "Shift" + "Control" + "Enter" ("Enter" ) på tastaturet.

Noen funksjoner

Regresjonsanalyse kan være tilgjengelig selv for dummies. Excel-formelå forutsi verdien av en rekke ukjente variabler - "TREND" - kan brukes selv av de som aldri har hørt om minste kvadraters metode. Det er nok bare å kjenne til noen funksjoner i arbeidet. Spesielt:

  • Hvis vi ordner rekkevidden av kjente verdier for variabelen y i en rad eller kolonne, så vil hver rad (kolonne) med kjente verdier x vil bli behandlet av programmet som en egen variabel.
  • Hvis området med kjent x ikke er spesifisert i "TREND"-vinduet, så i tilfelle bruk av funksjonen i Excel-program vil betrakte det som en matrise som består av heltall, hvis antall tilsvarer området med de gitte verdiene til variabelen y.
  • For å sende ut en matrise med "forutsagte" verdier, må trenduttrykket angis som en matriseformel.
  • Hvis ingen nye x-verdier er spesifisert, anser TREND-funksjonen dem som lik de kjente. Hvis de ikke er spesifisert, tas matrise 1 som et argument; 2; 3; 4;…, som er i samsvar med området med allerede gitte parametere y.
  • Området som inneholder de nye x-verdiene må bestå av samme eller mer rader eller kolonner, som et område med gitte y-verdier. Den må med andre ord stå i forhold til de uavhengige variablene.
  • En matrise med kjente x-verdier kan inneholde flere variabler. Imidlertid, hvis vi snakker bare omtrent én, da kreves det at områdene med de gitte verdiene av x og y er tilsvarende. Ved flere variabler er det nødvendig at området med de gitte y-verdiene passer i en kolonne eller en rad.

PROGNOS funksjon

Det implementeres ved hjelp av flere funksjoner. En av dem heter «PREDICTION». Den ligner på TREND, det vil si at den gir resultatet av beregninger ved bruk av minste kvadraters metode. Imidlertid bare for en X, der verdien av Y er ukjent.

Nå kjenner du Excel-formlene for dummies som lar deg forutsi verdien av den fremtidige verdien av en indikator i henhold til en lineær trend.

Det er mye brukt i økonometri i form av en klar økonomisk tolkning av parameterne.

Lineær regresjon reduseres til å finne en formlikning

eller

Skriv ligning tillater angi verdier parameter X har teoretiske verdier for den effektive funksjonen, og erstatter de faktiske verdiene av faktoren i den X.

Å bygge en lineær regresjon kommer ned til å estimere parameterne − en og i. Lineære regresjonsparameterestimater kan finnes ved hjelp av forskjellige metoder.

Den klassiske tilnærmingen til å estimere lineære regresjonsparametere er basert på minste kvadrater(MNK).

LSM lar en oppnå slike parameterestimater en og i, hvorunder summen av kvadrerte avvik av de faktiske verdiene til den resulterende egenskapen (y) fra beregnet (teoretisk) minimum minimum:

For å finne minimum av en funksjon, er det nødvendig å beregne de partielle deriverte med hensyn til hver av parameterne en og b og likestille dem til null.

Betegn gjennom S, deretter:

Å transformere formelen, får vi neste system normale ligninger for parameterestimering en og i:

Løse systemet med normalligninger (3.5) enten ved hjelp av metoden sekvensiell ekskludering variabler, eller ved metoden for determinanter, finner vi de nødvendige estimatene av parameterne en og i.

Parameter i kalt regresjonskoeffisienten. Verdien viser den gjennomsnittlige endringen i resultatet med en endring i faktoren med én enhet.

Regresjonsligningen er alltid supplert med en indikator for stramheten i forholdet. Ved bruk av lineær regresjon fungerer den lineære korrelasjonskoeffisienten som en slik indikator. Det finnes forskjellige versjoner av formelen lineær koeffisient korrelasjoner. Noen av dem er listet opp nedenfor:

Som du vet, er den lineære korrelasjonskoeffisienten innenfor grensene: -1 1.

For å vurdere kvaliteten på utvalget lineær funksjon kvadratet beregnes

En lineær korrelasjonskoeffisient kalt bestemmelseskoeffisient . Bestemmelseskoeffisienten karakteriserer andelen av variansen til den effektive egenskapen y, forklart av regresjonen total varians effektivt tegn:

Følgelig karakteriserer verdien 1 - andelen av dispersjon y, forårsaket av påvirkning av andre faktorer som ikke er tatt med i modellen.

Spørsmål for selvkontroll

1. Essensen av metoden for minste kvadrater?

2. Hvor mange variabler gir en parvis regresjon?

3. Hvilken koeffisient bestemmer tettheten av sammenhengen mellom endringene?

4. Innenfor hvilke grenser bestemmes bestemmelseskoeffisienten?

5. Estimering av parameter b i korrelasjonsregresjonsanalyse?

1. Christopher Dougherty. Introduksjon til økonometri. - M.: INFRA - M, 2001 - 402 s.

2. S.A. Borodich. Økonometri. Minsk LLC "New Knowledge" 2001.


3. R.U. Rakhmetov Kort kurs i økonometri. Opplæringen. Almaty. 2004. -78s.

4. I.I. Eliseeva Økonometri. - M.: "Finans og statistikk", 2002

5. Månedlig informasjon og analytisk magasin.

Ikke-lineære økonomiske modeller. Ikke-lineære regresjonsmodeller. Variabel konvertering.

Ikke-lineær økonomiske modeller..

Variabel konvertering.

elastisitetskoeffisient.

Hvis mellom økonomiske fenomener det er ikke-lineære relasjoner, så uttrykkes de ved å bruke de tilsvarende ikke-lineære funksjoner: for eksempel en likesidet hyperbel , andregradsparabler og så videre.

Det er to klasser av ikke-lineære regresjoner:

1. Regresjoner som er ikke-lineære med hensyn til forklaringsvariablene som er inkludert i analysen, men lineære med hensyn til de estimerte parameterne, for eksempel:

Polynomer ulike grader - , ;

Likesidet hyperbole - ;

Semilogaritmisk funksjon - .

2. Regresjoner som er ikke-lineære i de estimerte parameterne, for eksempel:

Makt - ;

Demonstrerende -;

Eksponentiell - .

Total sum av kvadrerte avvik individuelle verdier effektiv funksjon fra gjennomsnittsverdien er forårsaket av påvirkning av mange faktorer. Vi deler betinget opp hele settet med årsaker i to grupper: studerte faktor x og andre faktorer.

Hvis faktoren ikke påvirker resultatet, er regresjonslinjen på grafen parallell med aksen Åh og

Da skyldes hele spredningen av den effektive attributten påvirkning av andre faktorer og totale mengden kvadrerede avvik vil falle sammen med residuet. Hvis andre faktorer ikke påvirker resultatet, da u bundet Med X funksjonelt og restmengde kvadrater er null. I dette tilfellet er summen av kvadrerte avvik forklart av regresjonen den samme som totalsummen av kvadrater.

Siden ikke alle punkter i korrelasjonsfeltet ligger på regresjonslinjen, skjer spredningen deres alltid som på grunn av faktorens påvirkning X, dvs. regresjon X, og forårsaket av virkningen av andre årsaker (uforklarlig variasjon). Egnetheten til regresjonslinjen for prognoser avhenger av hvilken del generell variasjon skilt står for den forklarte variasjonen

Selvfølgelig, hvis summen av kvadrerte avvik på grunn av regresjon er større enn restsummen av kvadrater, så er regresjonsligningen statistisk signifikant og faktoren X har en betydelig innvirkning på resultatet. y.

, dvs. med antall frihet for uavhengig variasjon av funksjonen. Antall frihetsgrader er relatert til antall enheter av befolkningen n og antall konstanter bestemt fra den. I forhold til problemstillingen som studeres, skal antall frihetsgrader vise hvor mange uavhengige avvik fra P

Vurderingen av betydningen av regresjonsligningen som helhet gis ved hjelp av F- Fishers kriterium. I dette tilfellet fremsettes en nullhypotese om at regresjonskoeffisienten er lik null, dvs. b= 0, og derav faktoren X påvirker ikke resultatet y.

Den direkte beregningen av F-kriteriet innledes med en analyse av variansen. Sentralt i det er utvidelsen av den totale summen av kvadrerte avvik til variabelen fra gjennomsnittsverdien i to deler - "forklart" og "uforklart":

- total sum av kvadrerte avvik;

- summen av kvadrerte avvik forklart ved regresjon;

er restsummen av kvadratene til avviket.

Enhver sum av kvadrerte avvik er relatert til antall frihetsgrader , dvs. med antall frihet for uavhengig variasjon av funksjonen. Antall frihetsgrader er relatert til antall befolkningsenheter n og med antall konstanter bestemt fra det. I forhold til problemstillingen som studeres, skal antall frihetsgrader vise hvor mange uavhengige avvik fra P mulig kreves for å danne en gitt sum av kvadrater.

Spredning per frihetsgradD.

F-forhold (F-kriterium):

Hvis nullhypotesen er sann, deretter den faktorielle og restdispersjon ikke skiller seg fra hverandre. For H 0 er det nødvendig med en tilbakevisning slik at faktorvariansen overstiger residuet med flere ganger. Den engelske statistikeren Snedecor utviklet tabeller med kritiske verdier F-forhold på ulike nivåer av materialitet nullhypotesen og ulike tall grader av frihet. Tabellverdi F-kriteriet er den maksimale verdien av forholdet mellom varianser, som kan finne sted i tilfelle deres tilfeldige divergens for gitt nivå sannsynligheten for å ha en nullhypotese. Beregnet verdi F-relasjonen er anerkjent som pålitelig hvis o er større enn den tabellformede.

I dette tilfellet avvises nullhypotesen om fraværet av et forhold mellom funksjoner, og det trekkes en konklusjon om betydningen av dette forholdet: F fakta > F-tabell H 0 avvises.

Hvis verdien er mindre enn tabellen F faktum ‹, F-tabell, da er sannsynligheten for nullhypotesen høyere enn et gitt nivå og den kan ikke forkastes uten en alvorlig risiko for å trekke feil konklusjon om tilstedeværelsen av et forhold. I dette tilfellet anses regresjonsligningen som statistisk insignifikant. N o avviker ikke.

Standardfeil for regresjonskoeffisienten

For å vurdere betydningen av regresjonskoeffisienten, sammenlignes dens verdi med dens standard feil, dvs. den faktiske verdien bestemmes t– Studentens kriterium: som så sammenlignes med tabellverdi på et visst nivå av betydning og antall frihetsgrader ( n- 2).

Parameter Standard feil en:

Betydningen av den lineære korrelasjonskoeffisienten kontrolleres basert på størrelsen på feilen korrelasjonskoeffisient r:

Total variasjon av en funksjon X:

Multippel lineær regresjon

Modellbygg

Multippel regresjon er en regresjon av det resulterende trekk med to og et stort antall faktorer, det vil si visningsmodellen

Regresjon kan gi et godt resultat i modellering dersom påvirkning av andre faktorer som påvirker studieobjektet kan neglisjeres. Atferden til individuelle økonomiske variabler kan ikke kontrolleres, det vil si at det ikke er mulig å sikre likestilling av alle andre forhold for å vurdere påvirkningen av én faktor som studeres. I dette tilfellet bør du prøve å identifisere påvirkningen av andre faktorer ved å introdusere dem i modellen, dvs. bygge en ligning multippel regresjon: y = a+b 1 x 1 +b 2 +...+b p x p + .

Hovedmålet med multippel regresjon er å bygge en modell med et stort antall faktorer, mens man bestemmer påvirkningen av hver av dem individuelt, så vel som deres kumulative innvirkning på den modellerte indikatoren. Spesifikasjonen av modellen inkluderer to spørsmålsområder: valg av faktorer og valg av type regresjonsligning