Biografier Kjennetegn Analyse

Minste kvadraters løsning. LSM i tilfelle av en lineær modell

Eksempel.

Eksperimentelle data om verdiene til variabler X og er gitt i tabellen.

Som et resultat av deres justering, funksjonen

Ved hjelp av metode minste kvadrater , tilnærme disse dataene med en lineær avhengighet y=ax+b(finn alternativer en og b). Finn ut hvilken av de to linjene som er best (i betydningen minste kvadraters metode) som justerer eksperimentelle data. Lag en tegning.

Essensen av metoden for minste kvadrater (LSM).

Problemet er å finne de lineære avhengighetskoeffisientene som funksjonen til to variabler en og b godtar minste verdi. Det vil si gitt dataene en og b summen av de kvadrerte avvikene til eksperimentelle data fra den funnet rette linjen vil være den minste. Dette er hele poenget med minste kvadraters metode.

Dermed er løsningen av eksempelet redusert til å finne ekstremumet til en funksjon av to variabler.

Utledning av formler for å finne koeffisienter.

Et system med to ligninger med to ukjente er kompilert og løst. Finne partielle deriverte av funksjoner etter variabler en og b, likestiller vi disse derivatene til null.

Vi løser det resulterende likningssystemet ved hjelp av en hvilken som helst metode (for eksempel substitusjonsmetode eller Cramers metode) og få formler for å finne koeffisientene ved hjelp av minste kvadraters metode (LSM).

Med data en og b funksjon tar den minste verdien. Beviset for dette faktum er gitt under teksten på slutten av siden.

Det er hele metoden med minste kvadrater. Formel for å finne parameteren en inneholder summene ,,, og parameteren n- mengde eksperimentelle data. Verdiene av disse summene anbefales å beregnes separat. Koeffisient b funnet etter beregning en.

Det er på tide å huske det originale eksemplet.

Løsning.

I vårt eksempel n=5. Vi fyller ut tabellen for å gjøre det lettere å beregne beløpene som er inkludert i formlene til de nødvendige koeffisientene.

Verdiene i den fjerde raden i tabellen oppnås ved å multiplisere verdiene i den andre raden med verdiene i den tredje raden for hvert tall Jeg.

Verdiene i den femte raden i tabellen oppnås ved å kvadrere verdiene i den andre raden for hvert tall Jeg.

Verdiene i den siste kolonnen i tabellen er summene av verdiene på tvers av radene.

Vi bruker formlene til minste kvadraters metode for å finne koeffisientene en og b. Vi erstatter i dem de tilsvarende verdiene fra den siste kolonnen i tabellen:

Følgelig y=0,165x+2,184 er den ønskede tilnærmede rette linjen.

Det gjenstår å finne ut hvilken av linjene y=0,165x+2,184 eller tilnærmer de opprinnelige dataene bedre, det vil si å lage et estimat ved å bruke minste kvadraters metode.

Estimering av feilen til minste kvadraters metode.

For å gjøre dette må du beregne summene av kvadrerte avvik fra de opprinnelige dataene fra disse linjene og , tilsvarer en mindre verdi en linje som bedre tilnærmer de opprinnelige dataene i form av minste kvadraters metode.

Siden , så linjen y=0,165x+2,184 tilnærmer de opprinnelige dataene bedre.

Grafisk illustrasjon av minste kvadraters metode (LSM).

Alt ser bra ut på listene. Den røde linjen er den funnet linjen y=0,165x+2,184, er den blå linjen , de rosa prikkene er de originale dataene.

I praksis, ved modellering av ulike prosesser - spesielt økonomiske, fysiske, tekniske, sosiale - er en eller annen metode for å beregne omtrentlige verdier av funksjoner fra deres kjente verdier på noen faste punkter mye brukt.

Problemer med tilnærming av funksjoner av denne typen oppstår ofte:

    når du konstruerer omtrentlige formler for å beregne verdiene til de karakteristiske mengdene av prosessen som studeres i henhold til tabelldataene oppnådd som et resultat av eksperimentet;

    i numerisk integrasjon, differensiering, løsning differensiallikninger etc.;

    hvis det er nødvendig å beregne verdiene til funksjoner på mellompunkter i det betraktede intervallet;

    når du bestemmer verdiene for de karakteristiske mengdene av prosessen utenfor intervallet som vurderes, spesielt ved prognoser.

Hvis det for å modellere en bestemt prosess spesifisert av en tabell konstrueres en funksjon som tilnærmet beskriver denne prosessen basert på minste kvadraters metode, vil den kalles en approksimerende funksjon (regresjon), og selve oppgaven med å konstruere approksimerende funksjoner vil være et tilnærmingsproblem.

Denne artikkelen diskuterer MS Excel-pakkens muligheter for å løse slike problemer, i tillegg gis metoder og teknikker for å konstruere (lage) regresjoner for tabellmessig gitte funksjoner (som er grunnlaget for regresjonsanalyse).

Det er to alternativer for å bygge regresjoner i Excel.

    Legge til valgte regresjoner ( trendlinjer- trendlinjer) inn i et diagram bygget på grunnlag av en datatabell for den studerte prosesskarakteristikken (bare tilgjengelig hvis et diagram er bygget);

    Ved å bruke de innebygde statistiske funksjonene i Excel-regnearket, som lar deg få regresjoner (trendlinjer) direkte fra kildedatatabellen.

Legge til trendlinjer i et diagram

For en tabell med data som beskriver en bestemt prosess og representert med et diagram, har Excel et effektivt regresjonsanalyseverktøy som lar deg:

    bygg basert på minste kvadraters metode og legg til fem til diagrammet typer regresjoner, som, med varierende grad av nøyaktighet, modellerer prosessen som studeres;

    legg til en ligning av den konstruerte regresjonen til diagrammet;

    bestemme graden av samsvar for den valgte regresjonen med dataene som vises på diagrammet.

Basert på diagramdataene lar Excel deg få lineære, polynomielle, logaritmiske, eksponentielle, eksponentielle typer regresjoner, som er gitt av ligningen:

y = y(x)

hvor x er en uavhengig variabel, som ofte tar verdiene til en sekvens av naturlige tall (1; 2; 3; ...) og produserer for eksempel en nedtelling av tiden for prosessen som studeres (karakteristikker) .

1 . Lineær regresjon er god til å modellere funksjoner som øker eller reduseres med en konstant hastighet. Dette er den enkleste modellen av prosessen som studeres. Den er bygget i henhold til ligningen:

y=mx+b

der m er tangenten til skråningen lineær regresjon til x-aksen; b - koordinat for skjæringspunktet for den lineære regresjonen med y-aksen.

2 . En polynomtrendlinje er nyttig for å beskrive egenskaper som har flere distinkte ytterpunkter (høye og lave). Valget av graden av polynomet bestemmes av antall ekstrema for karakteristikken som studeres. Dermed kan et polynom av andre grad godt beskrive en prosess som kun har ett maksimum eller minimum; polynom av tredje grad - ikke mer enn to ekstrema; polynom av fjerde grad - ikke mer enn tre ekstrema, etc.

I dette tilfellet bygges trendlinjen i samsvar med ligningen:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

hvor koeffisientene c0, c1, c2,... c6 er konstanter hvis verdier bestemmes under konstruksjon.

3 . Den logaritmiske trendlinjen brukes med hell i modelleringskarakteristikker, hvis verdier endres raskt til å begynne med, og deretter gradvis stabiliseres.

y = c ln(x) + b

4 . Effekttrendlinjen gir gode resultater hvis verdiene til den studerte avhengigheten er preget av en konstant endring i vekstraten. Et eksempel på en slik avhengighet kan tjene som en graf for jevn akselerert bevegelse av bilen. Hvis det er null eller negative verdier, kan du ikke bruke en strømtrendlinje.

Den er bygget i samsvar med ligningen:

y = cxb

hvor koeffisientene b, c er konstanter.

5 . En eksponentiell trendlinje bør brukes hvis endringshastigheten i dataene øker kontinuerlig. For data som inneholder null eller negative verdier, er denne typen tilnærming heller ikke aktuelt.

Den er bygget i samsvar med ligningen:

y=cebx

hvor koeffisientene b, c er konstanter.

Når du velger en trendlinje, beregner Excel automatisk verdien av R2, som karakteriserer nøyaktigheten av tilnærmingen: Jo nærmere R2-verdien er én, desto mer pålitelig tilnærmer trendlinjen prosessen som studeres. Om nødvendig kan verdien av R2 alltid vises på diagrammet.

Bestemt av formelen:

Slik legger du til en trendlinje i en dataserie:

    aktivere kartet bygget på grunnlag av dataserien, dvs. klikk innenfor kartområdet. Kartelementet vil vises i hovedmenyen;

    etter å ha klikket på dette elementet, vil en meny vises på skjermen, der du bør velge Legg til trendlinje-kommandoen.

De samme handlingene implementeres enkelt hvis du holder musepekeren over grafen som tilsvarer en av dataseriene og høyreklikker; i kontekstmenyen som vises, velg kommandoen Legg til trendlinje. Trendlinje-dialogboksen vises på skjermen med kategorien Type åpen (fig. 1).

Etter det trenger du:

I kategorien Type velger du ønsket trendlinjetype (Lineær er valgt som standard). For polynomtypen, i Grad-feltet, spesifiser graden av det valgte polynomet.

1 . Bygget på serie-feltet viser alle dataseriene i det aktuelle diagrammet. For å legge til en trendlinje til en bestemt dataserie, velg navnet i feltet Bygget på serie.

Om nødvendig, ved å gå til fanen Parameters (fig. 2), kan du angi følgende parametere for trendlinjen:

    endre navnet på trendlinjen i feltet Navn på tilnærmet (utjevnet) kurve.

    angi antall perioder (fremover eller bakover) for prognosen i Prognose-feltet;

    vis ligningen til trendlinjen i diagramområdet, som du bør aktivere avmerkingsboksen for vis ligningen på diagrammet;

    vis verdien av tilnærmingspålitelighet R2 i diagramområdet, som du bør aktivere avkrysningsboksen for sett verdien av tilnærmingspålitelighet (R^2) på diagrammet;

    angi skjæringspunktet for trendlinjen med Y-aksen, som du bør aktivere avkrysningsboksen Skjæringspunktet for kurven med Y-aksen ved et punkt;

    klikk på OK-knappen for å lukke dialogboksen.

Det er tre måter å begynne å redigere en allerede bygget trendlinje på:

    bruk kommandoen Valgt trendlinje fra Format-menyen etter å ha valgt trendlinjen;

    velg kommandoen Formater trendlinje fra kontekstmenyen, som kalles opp ved å høyreklikke på trendlinjen;

    ved å dobbeltklikke på trendlinjen.

Dialogboksen Format Trendline vil vises på skjermen (fig. 3), som inneholder tre faner: View, Type, Parameters, og innholdet i de to siste er fullstendig sammenfallende med de lignende fanene i Trendline-dialogboksen (fig. 1-2) ). På Vis-fanen kan du angi linjetype, farge og tykkelse.

For å slette en allerede konstruert trendlinje, velg trendlinjen som skal slettes og trykk på Delete-tasten.

Fordelene med det betraktede regresjonsanalyseverktøyet er:

    den relative lette å plotte en trendlinje på diagrammer uten å lage en datatabell for den;

    en ganske bred liste over typer foreslåtte trendlinjer, og denne listen inkluderer de mest brukte regresjonstypene;

    muligheten for å forutsi oppførselen til prosessen som studeres for en vilkårlig (innenfor sunn fornuft) antall skritt frem og tilbake;

    muligheten for å oppnå ligningen til trendlinjen i en analytisk form;

    muligheten for om nødvendig å få en vurdering av tilnærmelsens pålitelighet.

Ulempene inkluderer følgende punkter:

    konstruksjonen av en trendlinje utføres bare hvis det er et diagram bygget på en serie data;

    prosessen med å generere dataserier for karakteristikken som studeres basert på trendlinjeligningene som er oppnådd for den, er noe rotete: de ønskede regresjonsligningene oppdateres med hver endring i verdiene til den opprinnelige dataserien, men bare innenfor diagramområdet , mens dataserien dannet på grunnlag av den gamle linjeligningstrenden, forblir uendret;

    I pivotdiagramrapporter, når du endrer diagramvisningen eller den tilknyttede pivottabellrapporten, beholdes ikke eksisterende trendlinjer, så du må sørge for at oppsettet til rapporten oppfyller kravene dine før du tegner trendlinjer eller på annen måte formaterer pivotdiagramrapporten.

Trendlinjer kan legges til dataserier presentert på diagrammer som en graf, histogram, flate ikke-normaliserte områdediagrammer, søyle-, sprednings-, boble- og aksjediagrammer.

Du kan ikke legge til trendlinjer i dataserier på 3D-, Standard-, Radar-, Sektor- og Smultringsdiagrammer.

Bruke innebygde Excel-funksjoner

Excel tilbyr også et regresjonsanalyseverktøy for å plotte trendlinjer utenfor diagramområdet. En rekke statistiske regnearkfunksjoner kan brukes til dette formålet, men alle lar deg bygge bare lineære eller eksponentielle regresjoner.

Excel har flere funksjoner for å bygge lineær regresjon, spesielt:

    TREND;

  • SKRÅNING og KUT.

I tillegg til flere funksjoner for å konstruere en eksponentiell trendlinje, spesielt:

    LGRFPca.

Det skal bemerkes at teknikkene for å konstruere regresjoner ved å bruke TREND- og GROWTH-funksjonene er praktisk talt de samme. Det samme kan sies om funksjonsparet LINEST og LGRFPRIBL. For disse fire funksjonene, når du oppretter en verditabell, brukes Excel-funksjoner som matriseformler, som noe roter opp prosessen med å bygge regresjoner. Vi legger også merke til at konstruksjonen av en lineær regresjon, etter vår mening, er enklest å implementere ved å bruke funksjonene SLOPE og INTERCEPT, der den første av dem bestemmer helningen til den lineære regresjonen, og den andre bestemmer segmentet avskåret av regresjonen. på y-aksen.

Fordelene med det innebygde funksjonsverktøyet for regresjonsanalyse er:

    en ganske enkel prosess med samme type dannelse av dataserier av karakteristikken som studeres for alle innebygde statistiske funksjoner som setter trendlinjer;

    en standardteknikk for å konstruere trendlinjer basert på den genererte dataserien;

    muligheten til å forutsi oppførselen til prosessen som studeres på nødvendig beløp skritt fremover eller bakover.

Og ulempene inkluderer det faktum at Excel ikke har innebygde funksjoner for å lage andre (unntatt lineære og eksponentielle) typer trendlinjer. Denne omstendigheten tillater ofte ikke å velge en tilstrekkelig nøyaktig modell av prosessen som studeres, i tillegg til å oppnå prognoser nær virkeligheten. I tillegg, når du bruker funksjonene TREND og GROW, er ikke ligningene til trendlinjene kjent.

Det skal bemerkes at forfatterne ikke satte som mål for artikkelen å presentere forløpet av regresjonsanalyse med ulik grad av fullstendighet. Hovedoppgaven er å vise Excel-pakkens evne til å løse tilnærmingsproblemer ved å bruke spesifikke eksempler; demonstrere hvilke effektive verktøy Excel har for å bygge regresjoner og prognoser; illustrere hvor relativt enkelt slike problemer kan løses selv av en bruker som ikke har dyp kunnskap om regresjonsanalyse.

Eksempler på løsning av spesifikke problemer

Vurder løsningen av spesifikke problemer ved å bruke de oppførte verktøyene i Excel-pakken.

Oppgave 1

Med en tabell over overskuddet til en biltransportbedrift for 1995-2002. du må gjøre følgende.

    Bygg et diagram.

    Legg til lineære og polynomiske (kvadratiske og kubiske) trendlinjer i diagrammet.

    Ved å bruke trendlinjelikningene kan du få tabelldata om fortjenesten til bedriften for hver trendlinje for 1995-2004.

    Lag en resultatprognose for bedriften for 2003 og 2004.

Løsningen på problemet

    I celleområdet A4:C11 i Excel-regnearket legger vi inn regnearket vist i fig. fire.

    Etter å ha valgt celleområdet B4:C11, bygger vi et diagram.

    Vi aktiverer det konstruerte diagrammet, og ved å bruke metoden beskrevet ovenfor, etter å ha valgt type trendlinje i dialogboksen Trendlinje (se fig. 1), legger vi vekselvis til lineære, kvadratiske og kubiske trendlinjer til diagrammet. I samme dialogboks åpner du fanen Parametere (se fig. 2), i feltet Navn på den tilnærmede (utjevnede) kurven skriver du inn navnet på trenden som skal legges til, og i feltet Prognose fremover for: perioder, angi verdien 2, siden det er planlagt å lage en resultatprognose for to år fremover. For å vise regresjonsligningen og verdien av tilnærmingsreliabiliteten R2 i diagramområdet, aktiver avmerkingsboksene Vis ligningen på skjermen og plasser verdien av tilnærmingsreliabiliteten (R^2) på diagrammet. For bedre visuell oppfatning endrer vi type, farge og tykkelse på de plottede trendlinjene, som vi bruker fanen Vis i dialogboksen Trendlinjeformat (se fig. 3). Det resulterende diagrammet med ekstra trendlinjer er vist i fig. 5.

    For å få tabelldata om fortjenesten til bedriften for hver trendlinje for 1995-2004. La oss bruke ligningene til trendlinjene presentert i fig. 5. For å gjøre dette, i cellene i D3:F3-området, skriv inn tekstinformasjon om typen av den valgte trendlinjen: Lineær trend, Kvadratisk trend, Kubisk trend. Deretter skriver du inn den lineære regresjonsformelen i celle D4, og ved å bruke fyllmarkøren kopierer du denne formelen med relative referanser til celleområdet D5:D13. Det skal bemerkes at hver celle med en lineær regresjonsformel fra celleområdet D4:D13 har en tilsvarende celle fra området A4:A13 som argument. På samme måte, for kvadratisk regresjon, fylles celleområdet E4:E13, og for kubisk regresjon fylles celleområdet F4:F13. Dermed ble det laget en prognose for foretakets overskudd for 2003 og 2004. med tre trender. Den resulterende verditabellen er vist i fig. 6.

Oppgave 2

    Bygg et diagram.

    Legg til logaritmiske, eksponentielle og eksponentielle trendlinjer i diagrammet.

    Utled ligningene til de oppnådde trendlinjene, så vel som verdiene til tilnærmingspåliteligheten R2 for hver av dem.

    Ved å bruke trendlinjeligningene kan du få tabelldata om fortjenesten til bedriften for hver trendlinje for 1995-2002.

    Lag en resultatprognose for virksomheten for 2003 og 2004 ved å bruke disse trendlinjene.

Løsningen på problemet

Ved å følge metodikken gitt ved løsning av oppgave 1 får vi et diagram med lagt til logaritmiske, eksponentielle og eksponentielle trendlinjer (fig. 7). Videre, ved å bruke de oppnådde trendlinjeligningene, fyller vi ut verditabellen for fortjenesten til bedriften, inkludert de anslåtte verdiene for 2003 og 2004. (Fig. 8).

På fig. 5 og fig. det kan ses at modellen med en logaritmisk trend tilsvarer den laveste verdien av tilnærmingspåliteligheten

R2 = 0,8659

De høyeste verdiene av R2 tilsvarer modeller med en polynomtrend: kvadratisk (R2 = 0,9263) og kubikk (R2 = 0,933).

Oppgave 3

Med en tabell med data om overskuddet til en biltransportbedrift for 1995-2002, gitt i oppgave 1, må du utføre følgende trinn.

    Få dataserier for lineære og eksponentielle trendlinjer ved å bruke TREND- og GROW-funksjonene.

    Ved å bruke funksjonene TREND og VEKST, lag en resultatprognose for bedriften for 2003 og 2004.

    Konstruer et diagram for de første dataene og de mottatte dataseriene.

Løsningen på problemet

La oss bruke arbeidsarket til oppgave 1 (se fig. 4). La oss begynne med TREND-funksjoner:

    velg celleområdet D4:D11, som skal fylles med verdiene til TREND-funksjonen som tilsvarer kjente data om fortjenesten til bedriften;

    kall opp funksjonskommandoen fra Sett inn-menyen. I dialogboksen Funksjonsveiviser som vises, velg TREND-funksjonen fra Statistical-kategorien, og klikk deretter OK-knappen. Den samme operasjonen kan utføres ved å trykke på knappen (Sett inn funksjon) på standardverktøylinjen.

    I dialogboksen Funksjonsargumenter som vises, skriv inn celleområdet C4:C11 i feltet Known_values_y; i feltet Known_values_x - celleområdet B4:B11;

    for å gjøre den angitte formelen til en matriseformel, bruk tastekombinasjonen + + .

Formelen vi skrev inn i formellinjen vil se slik ut: =(TREND(C4:C11;B4:B11)).

Som et resultat blir celleområdet D4:D11 fylt med de tilsvarende verdiene til TREND-funksjonen (fig. 9).

Å lage en prognose for selskapets resultat for 2003 og 2004. nødvendig:

    velg celleområdet D12:D13, hvor verdiene som er spådd av TREND-funksjonen vil bli lagt inn.

    kall opp TREND-funksjonen og i dialogboksen Funksjonsargumenter som vises, skriv inn i Known_values_y-feltet - celleområdet C4:C11; i feltet Known_values_x - celleområdet B4:B11; og i feltet New_values_x - celleområdet B12:B13.

    gjør denne formelen til en matriseformel ved å bruke hurtigtasten Ctrl + Shift + Enter.

    Den angitte formelen vil se slik ut: =(TREND(C4:C11;B4:B11;B12:B13)), og celleområdet D12:D13 vil bli fylt med de forutsagte verdiene til TREND-funksjonen (se fig. 9).

På samme måte fylles en dataserie ved hjelp av GROWTH-funksjonen, som brukes i analysen av ikke-lineære avhengigheter og fungerer nøyaktig på samme måte som dens lineære motpart TREND.

Figur 10 viser tabellen i formelvisningsmodus.

For de innledende dataene og den oppnådde dataserien, diagrammet vist i fig. elleve.

Oppgave 4

Med en tabell med data om mottak av søknader om tjenester fra ekspedisjonstjenesten til et motortransportbedrift for perioden fra 1. til 11. dag i inneværende måned, må følgende handlinger utføres.

    Skaff dataserier for lineær regresjon: ved å bruke SLOPE- og INTERCEPT-funksjonene; ved å bruke LINEST-funksjonen.

    Hent en dataserie for eksponentiell regresjon ved å bruke LYFFPRIB-funksjonen.

    Ved å bruke funksjonene ovenfor, lag en prognose om mottak av søknader til ekspedisjonstjenesten for perioden fra 12. til 14. dag i inneværende måned.

    For den opprinnelige og mottatte dataserien, konstruer et diagram.

Løsningen på problemet

Merk at, i motsetning til funksjonene TREND og GROW, er ingen av funksjonene oppført ovenfor (SLOPE, INTERCEPTION, LINEST, LGRFPRIB) regresjoner. Disse funksjonene spiller bare en hjelperolle, og bestemmer de nødvendige regresjonsparametrene.

For lineære og eksponentielle regresjoner bygget ved hjelp av funksjonene SLOPE, INTERCEPT, LINEST, LGRFPRIB, er utseendet til deres likninger alltid kjent, i motsetning til de lineære og eksponentielle regresjonene som tilsvarer funksjonene TREND og GROWTH.

1 . La oss bygge en lineær regresjon som har ligningen:

y=mx+b

ved å bruke SLOPE- og INTERCEPT-funksjonene, hvor stigningstallet til regresjonen m bestemmes av SLOPE-funksjonen, og konstantleddet b - av INTERCEPT-funksjonen.

For å gjøre dette, utfører vi følgende handlinger:

    skriv inn kildetabellen i celleområdet A4:B14;

    verdien av parameteren m vil bli bestemt i celle C19. Velg Slope-funksjonen fra Statistical-kategorien; angi celleområdet B4:B14 i feltet kjente_verdier_y og celleområdet A4:A14 i kjente_verdier_x-feltet. Formelen vil bli lagt inn i celle C19: =SLOPE(B4:B14;A4:A14);

    ved å bruke en lignende metode, bestemmes verdien av parameteren b i celle D19. Og innholdet vil se slik ut: = INTERCEPT(B4:B14;A4:A14). Dermed vil verdiene til parametrene m og b, som er nødvendige for å konstruere en lineær regresjon, lagres henholdsvis i cellene C19, D19;

    så skriver vi inn den lineære regresjonsformelen i celle C4 i formen: = $ C * A4 + $ D. I denne formelen er cellene C19 og D19 skrevet med absolutte referanser (celleadressen skal ikke endres ved eventuell kopiering). Det absolutte referansetegnet $ kan skrives inn enten fra tastaturet eller ved å bruke F4-tasten, etter å ha plassert markøren på celleadressen. Bruk fyllhåndtaket til å kopiere denne formelen til celleområdet C4:C17. Vi får ønsket dataserie (fig. 12). På grunn av det faktum at antall forespørsler er et heltall, bør du angi tallformatet på Nummer-fanen i Celleformat-vinduet med antall desimaler til 0.

2 . La oss nå bygge en lineær regresjon gitt av ligningen:

y=mx+b

ved å bruke LINEST-funksjonen.

For dette:

    skriv inn LINEST-funksjonen som en matriseformel i celleområdet C20:D20: =(LINEST(B4:B14;A4:A14)). Som et resultat får vi verdien av parameteren m i celle C20, og verdien av parameteren b i celle D20;

    skriv inn formelen i celle D4: =$C*A4+$D;

    kopier denne formelen ved å bruke fyllmarkøren til celleområdet D4:D17 og få ønsket dataserie.

3 . Vi bygger en eksponentiell regresjon som har ligningen:

ved hjelp av LGRFPRIBL-funksjonen utføres den på samme måte:

    i celleområdet C21:D21, skriv inn funksjonen LGRFPRIBL som en matriseformel: =( LGRFPRIBL (B4:B14;A4:A14)). I dette tilfellet vil verdien av parameteren m bli bestemt i celle C21, og verdien av parameteren b vil bli bestemt i celle D21;

    formelen legges inn i celle E4: =$D*$C^A4;

    ved å bruke fyllmarkøren kopieres denne formelen til celleområdet E4:E17, hvor dataserien for eksponentiell regresjon vil bli plassert (se fig. 12).

På fig. 13 viser en tabell der vi kan se funksjonene vi bruker med de nødvendige celleområdene, samt formler.

Verdi R 2 kalt bestemmelseskoeffisient.

Oppgaven med å konstruere en regresjonsavhengighet er å finne vektoren av koeffisientene m til modellen (1) der koeffisienten R tar maksimalverdien.

For å vurdere betydningen av R brukes Fishers F-test, beregnet etter formelen

hvor n- prøvestørrelse (antall eksperimenter);

k er antall modellkoeffisienter.

Hvis F overskrider en kritisk verdi for dataene n og k og det aksepterte konfidensnivået, så anses verdien av R som signifikant. Tabeller med kritiske verdier av F er gitt i oppslagsverk om matematisk statistikk.

Dermed bestemmes betydningen av R ikke bare av verdien, men også av forholdet mellom antall eksperimenter og antall koeffisienter (parametere) til modellen. Faktisk er korrelasjonsforholdet for n=2 for en enkel lineær modell 1 (gjennom 2 punkter på planet kan du alltid tegne en enkelt rett linje). Imidlertid, hvis de eksperimentelle dataene er tilfeldige variabler, bør en slik verdi av R stoles på med stor forsiktighet. Vanligvis, for å oppnå en signifikant R og pålitelig regresjon, er det rettet mot å sikre at antall eksperimenter betydelig overstiger antall modellkoeffisienter (n>k).

For å bygge en lineær regresjonsmodell må du:

1) lag en liste med n rader og m kolonner som inneholder eksperimentelle data (kolonne som inneholder utgangsverdien Y må enten være først eller sist på listen); for eksempel, la oss ta dataene fra forrige oppgave, legge til en kolonne kalt "periodenummer", som nummererer antall perioder fra 1 til 12. (disse vil være verdiene X)

2) gå til menyen Data/Dataanalyse/Regresjon

Hvis "Dataanalyse"-elementet i "Verktøy"-menyen mangler, bør du gå til "Add-Ins"-elementet i samme meny og merke av for "Analysepakke".

3) i "Regresjon"-dialogboksen, sett:

inndataintervall Y;

inndataintervall X;

utgangsintervall - den øvre venstre cellen i intervallet der beregningsresultatene vil bli plassert (det anbefales å plassere det på et nytt regneark);

4) klikk "Ok" og analyser resultatene.

Den har mange bruksområder da den tillater omtrentlig representasjon gitt funksjon andre er enklere. LSM kan være ekstremt nyttig i å behandle observasjoner, og det brukes aktivt til å estimere noen mengder fra resultatene av målinger av andre som inneholder tilfeldige feil. I denne artikkelen lærer du hvordan du implementerer minste kvadraters beregninger i Excel.

Uttalelse av problemet på et spesifikt eksempel

Anta at det er to indikatorer X og Y. Y er dessuten avhengig av X. Siden OLS er av interesse for oss fra et synspunkt om regresjonsanalyse (i Excel implementeres metodene ved hjelp av innebygde funksjoner), bør vi umiddelbart fortsette å vurdere et spesifikt problem.

Så la X være handelsområde dagligvarebutikk, målt i kvadratmeter, og Y er den årlige omsetningen, definert i millioner av rubler.

Det kreves å lage en prognose for hvilken omsetning (Y) butikken vil ha dersom den har et eller annet handelsareal. Det er klart at funksjonen Y = f (X) øker, siden hypermarkedet selger flere varer enn boden.

Noen få ord om riktigheten av de første dataene som brukes til prediksjon

La oss si at vi har en tabell bygget med data for n butikker.

I følge matematisk statistikk, vil resultatene være mer eller mindre korrekte dersom dataene på minst 5-6 objekter undersøkes. "Anomale" resultater kan heller ikke brukes. Spesielt kan en liten elitebutikk ha en omsetning mange ganger større enn omsetningen til store utsalgssteder i "masmarket"-klassen.

Essensen av metoden

Tabelldataene kan vises i Kartesisk fly i form av punktene M 1 (x 1, y 1), ... M n (x n, y n). Nå vil løsningen av problemet reduseres til valget av en tilnærmet funksjon y = f (x), som har en graf som passerer så nært som mulig punktene M 1, M 2, .. M n .

Selvfølgelig kan du bruke polynomet høy grad, men dette alternativet er ikke bare vanskelig å implementere, men rett og slett feil, siden det ikke vil gjenspeile hovedtrenden som må oppdages. Den mest fornuftige løsningen er å søke etter en rett linje y = ax + b, som best tilnærmer de eksperimentelle dataene, og mer presist koeffisientene - a og b.

Nøyaktighetspoeng

For enhver tilnærming er vurderingen av nøyaktigheten av spesiell betydning. Angi med e i forskjellen (avvik) mellom funksjonelle og eksperimentelle verdier for punktet x i, dvs. e i = y i - f (x i).

For å vurdere nøyaktigheten til tilnærmingen kan du selvsagt bruke summen av avvik, dvs. når du velger en rett linje for en omtrentlig representasjon av avhengigheten av X av Y, bør den som har den minste verdien av Y foretrekkes. summen e i på alle punkter under vurdering. Imidlertid er ikke alt så enkelt, siden sammen med positive avvik vil det praktisk talt være negative.

Du kan løse problemet ved å bruke avviksmodulene eller kvadratene deres. Den siste metoden fikk mest bred bruk. Den brukes på mange områder, inkludert regresjonsanalyse (i Excel utføres implementeringen ved hjelp av to innebygde funksjoner), og har lenge vist seg å være effektiv.

Minste kvadratiske metode

I Excel, som du vet, er det en innebygd autosum-funksjon som lar deg beregne verdiene til alle verdier i det valgte området. Dermed vil ingenting hindre oss i å beregne verdien av uttrykket (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

I matematisk notasjon ser dette slik ut:

Siden beslutningen opprinnelig ble tatt om å tilnærme ved hjelp av en rett linje, har vi:

Oppgaven med å finne en rett linje som best beskriver et spesifikt forhold mellom X og Y, utgjør derfor å beregne minimum av en funksjon av to variabler:

Dette krever å likestille med null partielle deriverte med hensyn til nye variabler a og b, og løse et primitivt system som består av to ligninger med 2 ukjente av formen:

Etter enkle transformasjoner, inkludert å dele på 2 og manipulere summene, får vi:

Å løse det, for eksempel ved Cramer-metoden, får vi stasjonært punkt med noen koeffisienter a * og b * . Dette er minimum, dvs. for å forutsi hvilken omsetning butikken vil ha når bestemt område, vil den rette linjen y \u003d a * x + b * gjøre, som er regresjonsmodell for det aktuelle eksemplet. Selvfølgelig lar hun deg ikke finne eksakt resultat, men vil hjelpe deg med å få en ide om hvorvidt det vil lønne seg å kjøpe en butikk på kreditt for et bestemt område.

Hvordan implementere minste kvadraters metode i Excel

Excel har en funksjon for å beregne verdien av minste kvadrater. Hun har neste visning: "TREND" (kjente Y-verdier; kjente X-verdier; nye X-verdier; konstant). La oss bruke formelen for å beregne OLS i Excel på tabellen vår.

For å gjøre dette, i cellen der resultatet av beregningen ved hjelp av minste kvadraters metode i Excel skal vises, skriv inn "="-tegnet og velg "TREND" -funksjonen. Fyll ut de aktuelle feltene i vinduet som åpnes, og uthev:

  • rekke kjente verdier for Y (in denne saken data for handelsomsetning);
  • rekkevidde x 1 , …x n , dvs. størrelsen på butikklokaler;
  • både kjent og ukjente verdier x, som du trenger for å finne ut størrelsen på omsetningen (for informasjon om deres plassering på regnearket, se nedenfor).

I tillegg er det en logisk variabel "Const" i formelen. Hvis du skriver inn 1 i feltet som tilsvarer det, vil dette bety at beregninger skal utføres, forutsatt at b \u003d 0.

Hvis du trenger å vite prognosen for mer enn én x-verdi, bør du ikke trykke "Enter" etter å ha skrevet inn formelen, men du må skrive kombinasjonen "Shift" + "Control" + "Enter" ("Enter" ) på tastaturet.

Noen funksjoner

Regresjonsanalyse kan nås selv av dummies. Excel-formelå forutsi verdien av en rekke ukjente variabler - "TREND" - kan brukes selv av de som aldri har hørt om minste kvadraters metode. Det er nok bare å kjenne til noen funksjoner i arbeidet. Spesielt:

  • Hvis vi ordner rekkevidden av kjente verdier for variabelen y i en rad eller kolonne, så vil hver rad (kolonne) med kjente verdier x vil bli behandlet av programmet som en egen variabel.
  • Hvis området med kjent x ikke er spesifisert i "TREND"-vinduet, så i tilfelle bruk av funksjonen i Excel-program vil betrakte det som en matrise som består av heltall, hvis antall tilsvarer området med de gitte verdiene til variabelen y.
  • For å sende ut en matrise med "forutsagte" verdier, må trenduttrykket angis som en matriseformel.
  • Hvis ingen nye x-verdier er spesifisert, anser TREND-funksjonen dem som lik de kjente. Hvis de ikke er spesifisert, tas matrise 1 som et argument; 2; 3; 4;…, som er i samsvar med området med allerede gitte parametere y.
  • Området som inneholder de nye x-verdiene må bestå av samme eller mer rader eller kolonner, som et område med gitte y-verdier. Den må med andre ord stå i forhold til de uavhengige variablene.
  • En matrise med kjente x-verdier kan inneholde flere variabler. Imidlertid, hvis vi snakker bare omtrent én, da kreves det at områdene med de gitte verdiene av x og y er tilsvarende. Ved flere variabler er det nødvendig at området med de gitte y-verdiene passer i en kolonne eller en rad.

PROGNOS funksjon

Det implementeres ved hjelp av flere funksjoner. En av dem heter «PREDICTION». Den ligner på TREND, det vil si at den gir resultatet av beregninger ved bruk av minste kvadraters metode. Imidlertid bare for en X, der verdien av Y er ukjent.

Nå kjenner du Excel-formlene for dummies som lar deg forutsi verdien av den fremtidige verdien av en indikator i henhold til en lineær trend.

Det er mye brukt i økonometri i form av en klar økonomisk tolkning av parameterne.

Lineær regresjon reduseres til å finne en formlikning

eller

Skriv ligning tillater angi verdier parameter X har teoretiske verdier for den effektive funksjonen, og erstatter de faktiske verdiene av faktoren i den X.

Å bygge en lineær regresjon kommer ned til å estimere parameterne − en og i. Lineære regresjonsparameterestimater kan finnes ved hjelp av forskjellige metoder.

Den klassiske tilnærmingen til å estimere lineære regresjonsparametere er basert på minste kvadrater(MNK).

LSM lar en oppnå slike parameterestimater en og i, hvorunder summen av kvadrerte avvik av de faktiske verdiene til den resulterende egenskapen (y) fra beregnet (teoretisk) minimum minimum:

For å finne minimum av en funksjon, er det nødvendig å beregne de partielle deriverte med hensyn til hver av parameterne en og b og likestille dem til null.

Betegn gjennom S, deretter:

Å transformere formelen, får vi neste system normale ligninger for parameterestimering en og i:

Løse systemet med normalligninger (3.5) enten ved hjelp av metoden sekvensiell ekskludering variabler, eller ved metoden for determinanter, finner vi de nødvendige estimatene av parameterne en og i.

Parameter i kalt regresjonskoeffisienten. Verdien viser den gjennomsnittlige endringen i resultatet med en endring i faktoren med én enhet.

Regresjonsligningen er alltid supplert med en indikator for stramheten i forholdet. Ved bruk av lineær regresjon fungerer den lineære korrelasjonskoeffisienten som en slik indikator. Det finnes forskjellige versjoner av formelen lineær koeffisient korrelasjoner. Noen av dem er listet opp nedenfor:

Som du vet, er den lineære korrelasjonskoeffisienten innenfor grensene: -1 1.

For å vurdere kvaliteten på utvalget lineær funksjon kvadratet beregnes

En lineær korrelasjonskoeffisient kalt bestemmelseskoeffisient . Bestemmelseskoeffisienten karakteriserer andelen av variansen til den effektive egenskapen y, forklart av regresjonen total varians effektivt tegn:

Følgelig karakteriserer verdien 1 - andelen av dispersjon y, forårsaket av påvirkning av andre faktorer som ikke er tatt med i modellen.

Spørsmål for selvkontroll

1. Essensen av metoden for minste kvadrater?

2. Hvor mange variabler gir en parvis regresjon?

3. Hvilken koeffisient bestemmer tettheten av sammenhengen mellom endringene?

4. Innenfor hvilke grenser bestemmes bestemmelseskoeffisienten?

5. Estimering av parameter b i korrelasjonsregresjonsanalyse?

1. Christopher Dougherty. Introduksjon til økonometri. - M.: INFRA - M, 2001 - 402 s.

2. S.A. Borodich. Økonometri. Minsk LLC "New Knowledge" 2001.


3. R.U. Rakhmetov Kort kurs i økonometri. Opplæringen. Almaty. 2004. -78s.

4. I.I. Eliseeva Økonometri. - M.: "Finans og statistikk", 2002

5. Månedlig informasjon og analytisk magasin.

Ikke-lineære økonomiske modeller. Ikke-lineære regresjonsmodeller. Variabel konvertering.

Ikke-lineær økonomiske modeller..

Variabel konvertering.

elastisitetskoeffisient.

Hvis mellom økonomiske fenomener det er ikke-lineære relasjoner, så uttrykkes de ved å bruke de tilsvarende ikke-lineære funksjoner: for eksempel en likesidet hyperbel , andregradsparabler og så videre.

Det er to klasser av ikke-lineære regresjoner:

1. Regresjoner som er ikke-lineære med hensyn til forklaringsvariablene som er inkludert i analysen, men lineære med hensyn til de estimerte parameterne, for eksempel:

Polynomer ulike grader - , ;

Likesidet hyperbole - ;

Semilogaritmisk funksjon - .

2. Regresjoner som er ikke-lineære i de estimerte parameterne, for eksempel:

Makt - ;

Demonstrerende -;

Eksponentiell - .

Total sum av kvadrerte avvik individuelle verdier effektiv funksjon fra gjennomsnittsverdien er forårsaket av påvirkning av mange faktorer. Vi deler betinget opp hele settet med årsaker i to grupper: studerte faktor x og andre faktorer.

Hvis faktoren ikke påvirker resultatet, er regresjonslinjen på grafen parallell med aksen Åh og

Da skyldes hele spredningen av den effektive attributten påvirkning av andre faktorer og totale mengden kvadrerede avvik vil falle sammen med residuet. Hvis andre faktorer ikke påvirker resultatet, da u bundet Med X funksjonelt og restmengde kvadrater er null. I dette tilfellet er summen av kvadrerte avvik forklart av regresjonen den samme som totalsummen av kvadrater.

Siden ikke alle punkter i korrelasjonsfeltet ligger på regresjonslinjen, skjer spredningen deres alltid som på grunn av faktorens påvirkning X, dvs. regresjon X, og forårsaket av virkningen av andre årsaker (uforklarlig variasjon). Egnetheten til regresjonslinjen for prognoser avhenger av hvilken del generell variasjon skilt står for den forklarte variasjonen

Selvfølgelig, hvis summen av kvadrerte avvik på grunn av regresjon er større enn restsummen av kvadrater, så er regresjonsligningen statistisk signifikant og faktoren X har en betydelig innvirkning på resultatet. y.

, dvs. med antall frihet for uavhengig variasjon av funksjonen. Antall frihetsgrader er relatert til antall enheter av befolkningen n og antall konstanter bestemt fra den. I forhold til problemstillingen som studeres, skal antall frihetsgrader vise hvor mange uavhengige avvik fra P

Vurderingen av betydningen av regresjonsligningen som helhet gis ved hjelp av F- Fishers kriterium. I dette tilfellet fremsettes en nullhypotese om at regresjonskoeffisienten er lik null, dvs. b= 0, og derav faktoren X påvirker ikke resultatet y.

Den direkte beregningen av F-kriteriet innledes med en analyse av variansen. Sentralt i det er utvidelsen av den totale summen av kvadrerte avvik til variabelen fra gjennomsnittsverdien i to deler - "forklart" og "uforklart":

- total sum av kvadrerte avvik;

- summen av kvadrerte avvik forklart ved regresjon;

er restsummen av kvadratene til avviket.

Enhver sum av kvadrerte avvik er relatert til antall frihetsgrader , dvs. med antall frihet for uavhengig variasjon av funksjonen. Antall frihetsgrader er relatert til antall befolkningsenheter n og med antall konstanter bestemt fra det. I forhold til problemstillingen som studeres, skal antall frihetsgrader vise hvor mange uavhengige avvik fra P mulig kreves for å danne en gitt sum av kvadrater.

Spredning per frihetsgradD.

F-forhold (F-kriterium):

Hvis nullhypotesen er sann, deretter den faktorielle og restdispersjon ikke skiller seg fra hverandre. For H 0 er det nødvendig med en tilbakevisning slik at faktorvariansen overstiger residuet med flere ganger. Den engelske statistikeren Snedecor utviklet tabeller med kritiske verdier F-forhold på ulike nivåer av materialitet nullhypotesen og ulike tall grader av frihet. Tabellverdi F-kriteriet er den maksimale verdien av forholdet mellom varianser, som kan finne sted i tilfelle deres tilfeldige divergens for gitt nivå sannsynligheten for å ha en nullhypotese. Beregnet verdi F-relasjonen er anerkjent som pålitelig hvis o er større enn den tabellformede.

I dette tilfellet avvises nullhypotesen om fraværet av et forhold mellom funksjoner, og det trekkes en konklusjon om betydningen av dette forholdet: F fakta > F-tabell H 0 avvises.

Hvis verdien er mindre enn tabellen F faktum ‹, F-tabell, da er sannsynligheten for nullhypotesen høyere enn et gitt nivå og den kan ikke forkastes uten en alvorlig risiko for å trekke feil konklusjon om tilstedeværelsen av et forhold. I dette tilfellet anses regresjonsligningen som statistisk insignifikant. N o avviker ikke.

Standardfeil for regresjonskoeffisienten

For å vurdere betydningen av regresjonskoeffisienten, sammenlignes dens verdi med dens standard feil, dvs. den faktiske verdien bestemmes t-Elevens kriterium: som så sammenlignes med tabellverdi på et visst nivå av betydning og antall frihetsgrader ( n- 2).

Parameter Standard feil en:

Betydningen av den lineære korrelasjonskoeffisienten kontrolleres basert på størrelsen på feilen korrelasjonskoeffisient r:

Total variasjon av en funksjon X:

Multippel lineær regresjon

Modellbygg

Multippel regresjon er en regresjon av det resulterende trekk med to og et stort antall faktorer, det vil si visningsmodellen

regresjon kan gi godt resultat ved modellering, hvis påvirkning av andre faktorer som påvirker studieobjektet kan neglisjeres. Atferden til individuelle økonomiske variabler kan ikke kontrolleres, det vil si at det ikke er mulig å sikre likestilling av alle andre forhold for å vurdere innflytelsen av en faktor som studeres. I dette tilfellet bør du prøve å identifisere påvirkningen av andre faktorer ved å introdusere dem i modellen, dvs. bygge en ligning multippel regresjon: y = a+b 1 x 1 +b 2 +...+b p x p + .

Hovedmålet med multippel regresjon er å bygge en modell med et stort antall faktorer, mens man bestemmer påvirkningen av hver av dem individuelt, så vel som deres kumulative innvirkning på den modellerte indikatoren. Spesifikasjonen av modellen inkluderer to spørsmålsområder: valg av faktorer og valg av type regresjonsligning

Minste kvadratiske metode brukes til å estimere parametrene til regresjonsligningen.
Antall linjer (første data)

En av metodene for å studere stokastiske sammenhenger mellom funksjoner er regresjonsanalyse.
Regresjonsanalyse er utledningen av en regresjonsligning, som brukes til å finne gjennomsnittlig verdi en tilfeldig variabel (funksjonsresultat), hvis verdien av en annen (eller andre) variabler (funksjonsfaktorer) er kjent. Den inkluderer følgende trinn:

  1. valg av kommunikasjonsform (type analytisk ligning regresjon);
  2. estimering av ligningsparametere;
  3. evaluering av kvaliteten på den analytiske regresjonsligningen.
Oftest brukes en lineær form for å beskrive det statistiske forholdet mellom funksjoner. oppmerksomhet til lineær forbindelse forklares av en klar økonomisk tolkning av parameterne, begrenset av variasjonen av variabler, og av det faktum at i de fleste tilfeller konverteres ikke-lineære former for kommunikasjon (ved å ta en logaritme eller endre variabler) til en lineær form for å utføre beregninger.
I tilfellet med en lineær parrelasjon vil regresjonsligningen ha formen: y i =a+b·x i +u i. Alternativer gitt ligning a og b er estimert fra dataene statistisk observasjon x og y. Resultatet av en slik vurdering er ligningen: , hvor , - estimater av parameterne a og b , - verdien av den effektive egenskapen (variabelen) oppnådd av regresjonsligningen (kalkulert verdi).

Den mest brukte for parameterestimering er minste kvadraters metode (LSM).
Minste kvadraters metode gir de beste (konsistente, effektive og objektive) estimatene av parametrene til regresjonsligningen. Men bare hvis visse forutsetninger om tilfeldig ledd (u) og den uavhengige variabelen (x) er oppfylt (se OLS-forutsetninger).

Problemet med å estimere parametrene til en lineær parligning minste kvadrater består i følgende: for å oppnå slike estimater av parametrene , , hvor summen av kvadrerte avvik av de faktiske verdiene til den effektive funksjonen - y i fra de beregnede verdiene - er minimal.
Formelt OLS-kriterium kan skrives slik: .

Klassifisering av minste kvadraters metoder

  1. Minste kvadratiske metode.
  2. Maksimal sannsynlighetsmetode (for en normal klassisk lineær regresjonsmodell postuleres normaliteten til regresjonsrester).
  3. Den generaliserte minste kvadraters metode for GLSM brukes i tilfelle av feil autokorrelasjon og i tilfelle av heteroskedastisitet.
  4. Vektede minste kvadrater ( spesielt tilfelle GMS med heteroskedastiske rester).

Illustrer essensen den klassiske metoden for minste kvadrater grafisk. For å gjøre dette skal vi bygge spredningsplott i henhold til observasjoner (x i, y i, i=1;n) i rektangulært system koordinater (et slikt spredningsplot kalles et korrelasjonsfelt). La oss prøve å finne en rett linje som er nærmest punktene i korrelasjonsfeltet. I henhold til minste kvadraters metode er linjen valgt slik at summen av kvadratiske vertikale avstander mellom punktene i korrelasjonsfeltet og denne linjen blir minimal.

Matematisk notasjon av dette problemet: .
Verdiene til y i og x i =1...n er kjent for oss, dette er observasjonsdata. I funksjonen S er de konstanter. Variablene i denne funksjonen er de nødvendige estimatene for parameterne - , . For å finne minimum av en funksjon av 2 variabler, er det nødvendig å beregne de partielle deriverte av denne funksjonen med hensyn til hver av parameterne og likestille dem til null, dvs. .
Som et resultat får vi et system på 2 normal lineære ligninger:
Bestemmer seg dette systemet finner vi de nødvendige parameterestimatene:

Riktigheten av beregningen av parametrene til regresjonsligningen kan kontrolleres ved å sammenligne summene (noe avvik er mulig på grunn av avrunding av beregningene).
For å beregne parameteranslag kan du bygge tabell 1.
Tegnet på regresjonskoeffisienten b indikerer retningen til sammenhengen (hvis b > 0, er sammenhengen direkte, hvis b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formelt sett er verdien av parameteren a gjennomsnittsverdien av y for x lik null. Hvis fortegnsfaktoren ikke har og ikke kan ha en nullverdi, gir ikke tolkningen ovenfor av parameteren a mening.

Vurdering av tettheten i forholdet mellom funksjoner utføres ved å bruke koeffisienten for lineær parkorrelasjon - r x,y . Det kan beregnes ved hjelp av formelen: . I tillegg kan koeffisienten for lineær parkorrelasjon bestemmes i form av regresjonskoeffisienten b: .
Utvalget av tillatte verdier for den lineære koeffisienten av parkorrelasjon er fra –1 til +1. Tegnet på korrelasjonskoeffisienten indikerer retningen til forholdet. Hvis r x, y >0, så er forbindelsen direkte; hvis r x, y<0, то связь обратная.
Hvis denne koeffisienten er nær enhet i modul, kan forholdet mellom funksjonene tolkes som en ganske nær lineær. Hvis dens modul er lik en ê r x , y ê =1, så er forholdet mellom egenskapene funksjonelt lineært. Hvis funksjonene x og y er lineært uavhengige, er r x,y nær 0.
Tabell 1 kan også brukes til å beregne r x,y.

Tabell 1

N observasjonerx iy jegx i ∙ y i
1 x 1y 1x 1 y 1
2 x2y2x 2 y 2
...
nx ny nx n y n
Kolonnesum∑x∑y∑x y
Mener
For å vurdere kvaliteten på den oppnådde regresjonsligningen, beregnes den teoretiske bestemmelseskoeffisienten - R 2 yx:

,
hvor d 2 er variansen y forklart av regresjonsligningen;
e 2 - residual (uforklart av regresjonsligningen) varians y ;
s 2 y - total (total) varians y .
Bestemmelseskoeffisienten karakteriserer andelen variasjon (spredning) av den resulterende egenskapen y, forklart av regresjon (og følgelig faktoren x), i den totale variasjonen (spredningen) y. Bestemmelseskoeffisienten R 2 yx tar verdier fra 0 til 1. Følgelig karakteriserer verdien 1-R 2 yx andelen varians y forårsaket av påvirkning av andre faktorer som ikke er tatt i betraktning i modellen og spesifikasjonsfeil.
Med paret lineær regresjon R 2 yx =r 2 yx .

100 r første ordre bonus

Velg type arbeid Avgangsarbeid Semesteroppgave Abstrakt Masteroppgave Rapport om praksis Artikkel Rapport Gjennomgang Prøvearbeid Monografi Problemløsning Forretningsplan Svar på spørsmål Kreativt arbeid Essay Tegning Komposisjoner Oversettelse Presentasjoner Skriving Annet Øke det unike i teksten Kandidatens oppgave Laboratoriearbeid Hjelp på- linje

Spør etter en pris

Metoden for minste kvadrater er en matematisk (matematisk-statistisk) teknikk som tjener til å utjevne tidsserier, identifisere formen på en korrelasjon mellom tilfeldige variabler osv. Den består i at funksjonen som beskriver dette fenomenet er tilnærmet av en enklere funksjon . Dessuten er sistnevnte valgt på en slik måte at standardavviket (se Varians) av de faktiske nivåene til funksjonen på de observerte punktene fra de utjevnede er minst.

For eksempel, i henhold til tilgjengelige data ( xi,yi) (Jeg = 1, 2, ..., n) en slik kurve er konstruert y = en + bx, hvor minimum av summen av kvadrerte avvik er nådd

dvs. en funksjon er minimert som avhenger av to parametere: en- segment på y-aksen og b- helningen til den rette linjen.

Ligninger som gir nødvendige betingelser for å minimere en funksjon S(en,b), er kalt normale ligninger. Som approksimerende funksjoner brukes ikke bare lineær (innretting langs en rett linje), men også kvadratisk, parabolsk, eksponentiell, etc.. M.2, hvor summen av kvadrerte avstander ( y 1 – ȳ 1)2 + (y 2 – ȳ 2)2 .... er den minste, og den resulterende rette linjen reflekterer best trenden til den dynamiske serien av observasjoner for en eller annen indikator over tid.

For objektive OLS-estimater er det nødvendig og tilstrekkelig å oppfylle den viktigste betingelsen for regresjonsanalyse: den matematiske forventningen om en tilfeldig feil betinget av faktorene må være lik null. Spesielt denne betingelsen er oppfylt hvis: 1.den matematiske forventningen til tilfeldige feil er lik null, og 2.faktorer og tilfeldige feil er uavhengige tilfeldige variabler. Den første betingelsen kan anses som alltid oppfylt for modeller med en konstant, siden konstanten får en matematisk forventning om feil som ikke er null. Den andre tilstanden - tilstanden til eksogene faktorer - er grunnleggende. Hvis denne egenskapen ikke er fornøyd, kan vi anta at nesten alle estimater vil være ekstremt utilfredsstillende: de vil ikke engang være konsistente (det vil si at selv en veldig stor mengde data ikke tillater å oppnå kvalitative estimater i dette tilfellet).

Den vanligste i praksisen med statistisk estimering av parametrene til regresjonsligninger er metoden for minste kvadrater. Denne metoden er basert på en rekke forutsetninger om dataenes art og resultatene av modellbyggingen. De viktigste er en klar separasjon av startvariablene i avhengige og uavhengige, ukorrelasjonen til faktorene som er inkludert i ligningene, lineariteten til forholdet, fraværet av autokorrelasjon av residualene, likheten mellom deres matematiske forventninger til null og konstant spredning.

En av hovedhypotesene til LSM er antakelsen om at dispersjonene av avvik ei er like, dvs. deres spredning rundt gjennomsnittsverdien (null) av serien bør være en stabil verdi. Denne egenskapen kalles homoskedastisitet. I praksis er variansene av avvik ganske ofte ikke de samme, det vil si at heteroskedastisitet observeres. Dette kan skyldes ulike årsaker. For eksempel kan det være feil i de opprinnelige dataene. Tilfeldige unøyaktigheter i kildeinformasjonen, for eksempel feil i tallrekkefølgen, kan ha betydelig innvirkning på resultatene. Ofte observeres en større spredning av avvik єi ved store verdier av den avhengige variabelen (variablene). Dersom dataene inneholder en betydelig feil, vil naturligvis også avviket til modellverdien beregnet fra de feilaktige dataene være stort. For å bli kvitt denne feilen, må vi redusere bidraget fra disse dataene til beregningsresultatene, sette en lavere vekt for dem enn for resten. Denne ideen implementeres i vektede minste kvadrater.