Biografier Kjennetegn Analyse

Eksempel på multippel lineær regresjon. Løsning ved hjelp av Excel-regneark

Jeg har en stor bokhylle med mange bøker fordelt på mange varianter. På øverste hylle er religiøse bøker som Fiqh-bøker, Tauhid-bøker, Tasawuf-bøker, Nahwu-bøker, etc. De står pent oppstilt i mange rader og noen av dem står pent oppstilt ifølge skribentene. På det andre nivået er mine ivrige bøker som grammatikkbøker, skrivebøker, TOEFL-bøker, etc. Disse er ordnet ut fra størrelsene. På neste hylle er mange typer vitenskapelig og kunnskapsrike bøker; for eksempel filosofier, politikk, historier osv. Det er tre nivåer for disse. Til slutt, nederst i bokhyllen min er ordbøker, de er arabiske ordbøker og engelske ordbøker samt indonesiske ordbøker. Det er faktisk seks nivåer i den store bokhyllen min, og de er stilt opp i mange rader. Det første nivået inkluderer religiøse bøker, det andre nivået inkluderer mine ivrige bøker, nivået med tre nivåer inkluderer mange typer vitenskapelige og kunnskapsrike bøker og det siste nivået inkluderer ordbøker. Kort sagt, jeg elsker bokhyllen min.

Spesifikk-til-generell ordre

Ferdighetene som trengs for å skrive spenner fra å lage de riktige grafiske merkene, gjennom å bruke ressursene til det valgte språket, til å forutse reaksjonene til de tiltenkte leserne. Det første ferdighetsområdet innebærer å tilegne seg et skrivesystem, som kan være alfabetisk (som i europeiske språk) eller ikke-alfabetisk (som i mange asiatiske språk). Det andre ferdighetsområdet krever å velge riktig grammatikk og vokabular for å danne akseptable setninger og deretter ordne dem i avsnitt. For det tredje innebærer skriving å tenke på formålet med teksten som skal komponeres og om dens mulige effekter på den tiltenkte leserskaren. Et viktig aspekt ved denne siste funksjonen er valget av en passende stil. I motsetning til å snakke, er skriving en kompleks sosiokognitiv prosess som må tilegnes gjennom år med opplæring eller skolegang. (Swales og Feak, 1994, s. 34)

Generell til spesifikk rekkefølge

"Å jobbe deltid som kasserer på Piggly Wiggly har gitt meg en flott mulighet til å observere menneskelig atferd. Noen ganger tenker jeg på shoppere som hvite rotter i et laboratorieeksperiment, og gangene som en labyrint designet av en psykolog. De fleste av rottene – kunder, mener jeg – følger et rutinemønster, rusler opp og ned gangene, sjekker gjennom sjakten min, og flykter så gjennom utgangsluken. Unormal kunde: hukommelsestapen, superkjøperen og tøffen. ."

Det er mange faktorer som bidrar til studentenes suksess på college. Den første faktoren er å ha et mål i tankene før du etablerer et studieløp. Målet kan være så generelt som å ønske å utdanne seg bedre for fremtiden. Et mer spesifikt mål ville være å få en lærerkompetanse. En annen faktor knyttet til studentenes suksess er selvmotivasjon og engasjement. En student som ønsker å lykkes og jobber mot dette ønsket vil lett finne suksess som høyskolestudent. En tredje faktor knyttet til studentenes suksess er bruk av høyskoletjenester. De fleste nybegynnere studenter klarer ikke å innse hvor viktig det kan være å se en rådgiver eller rådføre seg med en bibliotekar eller økonomisk bistandsansvarlig.

Det er tre grunner til at Canada er en av dem den beste land i verden. For det første har Canada en utmerket helsetjeneste. Alle kanadiere har tilgang til medisinske tjenester til en rimelig pris. For det andre har Canada en høy standard på utdanning. Studentene læres opp til å være godt utdannede lærere og oppfordres til å fortsette å studere ved universitetet. Endelig er Canadas byer rene og effektivt organisert. Kanadiske byer har mange parker og mye plass for folk å bo. Som et resultat er Canada et ønskelig sted å bo.

York ble anklaget av seks tyske soldater som kom mot ham med faste bajonetter. Han trakk en perle på den sjette mannen, skjøt og så på den femte. Han jobbet seg nedover linjen, og før han visste ordet av det, var den første mannen helt alene. York drepte ham med et enkelt skudd.

Mens han så seg rundt på campus, som nesten ikke hadde endret seg, lettet han de øyeblikkene han hadde tilbrakt med Nancy. Han husket hvordan de to satte seg ved dammen og pratet i det uendelige mens de matet fiskene, og også hvordan de gikk turer sammen, fortapt i sin egen verden. Ja, Nancy var en av de få vennene han noen gang hadde hatt. ….Han ble plutselig fylt av nostalgi da han husket den ettermiddagen at han hadde tatt farvel med Nancy. Han snuste høyt mens øynene hans ble fylt med tårer.

Eksempler på å løse problemer ved multippel regresjon

Eksempel 1 Regresjonsligningen, bygget på 17 observasjoner, har formen:

Ordne de manglende verdiene, samt bygg et konfidensintervall for b 2 med en sannsynlighet på 0,99.

Løsning. Manglende verdier bestemmes ved hjelp av formlene:

Dermed ser regresjonsligningen med statistiske egenskaper slik ut:

Konfidensintervall for b 2 bygge i henhold til den tilsvarende formelen. Her er signifikansnivået 0,01, og antall frihetsgrader er det ns– 1 = 17 – 3 – 1 = 13, hvor n= 17 – prøvestørrelse, s= 3 er antall faktorer i regresjonsligningen. Herfra

eller . Dette konfidensintervallet dekker den sanne verdien av parameteren med en sannsynlighet på 0,99.

Eksempel 2 Regresjonsligningen i standardiserte variabler ser slik ut:

I dette tilfellet er variasjonene til alle variablene lik følgende verdier:

Sammenlign faktorene i henhold til graden av innflytelse på den resulterende funksjonen og bestem verdiene til partielle elastisitetskoeffisienter.

Løsning. Standardiserte regresjonsligninger lar deg sammenligne faktorer etter styrken av deres innflytelse på resultatet. Samtidig, jo større den absolutte verdien av koeffisienten til den standardiserte variabelen er, jo sterkere påvirker denne faktoren den resulterende egenskapen. I ligningen under vurdering er den faktoren som har sterkest innflytelse på resultatet x 1, som har en koeffisient på 0,82, er den svakeste faktoren x 3 med en koeffisient lik - 0,43.

I en lineær multippel regresjonsmodell bestemmes den generaliserte (gjennomsnittlige) koeffisienten for partiell elastisitet av et uttrykk som inkluderer gjennomsnittsverdiene til variablene og koeffisienten ved den tilsvarende faktoren til regresjonsligningen i naturlig skala. I forhold til problemet er ikke disse mengdene spesifisert. Derfor bruker vi uttrykkene for variasjon med hensyn til variabler:

Odds b j knyttet til standardiserte koeffisienter β j det tilsvarende forholdet, som vi erstatter med formelen for den gjennomsnittlige elastisitetskoeffisienten:

.

I dette tilfellet vil tegnet på elastisitetskoeffisienten falle sammen med tegnet β j:

Eksempel 3 Basert på 32 observasjoner ble følgende data innhentet:

Bestem verdiene til den justerte bestemmelseskoeffisienten, partielle elastisitetskoeffisienter og parameter en.

Løsning. Verdien av den justerte bestemmelseskoeffisienten bestemmes av en av formlene for beregningen:

Partielle elastisitetskoeffisienter (gjennomsnitt over populasjonen) beregnes ved å bruke de riktige formlene:

Siden den lineære ligningen for multippel regresjon utføres ved å erstatte gjennomsnittsverdiene for alle variabler i den, bestemmer vi parameteren en:

Eksempel 4 For noen variabler er følgende statistikk tilgjengelig:

Bygg en regresjonsligning i standardiserte og naturlige skalaer.

Løsning. Siden parkorrelasjonskoeffisientene mellom variabler i utgangspunktet er kjent, bør man starte med å konstruere en regresjonsligning på en standardisert skala. For å gjøre dette er det nødvendig å løse det tilsvarende systemet med normale ligninger, som i tilfelle av to faktorer har formen:

eller, etter å ha erstattet de opprinnelige dataene:

Vi løser dette systemet på noen måte, vi får: β1 = 0,3076, β2 = 0,62.

La oss skrive regresjonsligningen på en standardisert skala:

La oss nå gå videre til regresjonsligningen i naturlig skala, som vi bruker formlene for å beregne regresjonskoeffisienter gjennom beta-koeffisienter og rettferdighetsegenskapen til regresjonsligningen for gjennomsnittlige variabler:

Regresjonsligningen for naturlig skala er:

Eksempel 5 Når du bygger en lineær multippel regresjon for 48 målinger var bestemmelseskoeffisienten 0,578. Etter å ha eliminert faktorene x 3, x 7 og x 8 bestemmelseskoeffisienten sank til 0,495. Var beslutningen om å endre sammensetningen av påvirkningsvariablene ved signifikansnivåer på 0,1, 0,05 og 0,01 berettiget?

Løsning. La - bestemmelseskoeffisienten av regresjonsligningen med det innledende settet av faktorer, - bestemmelseskoeffisienten etter ekskludering av tre faktorer. Vi legger frem hypoteser:

;

Hovedhypotesen antyder at nedgangen i størrelsesorden ikke var signifikant, og beslutningen om å ekskludere en gruppe faktorer var riktig. Den alternative hypotesen indikerer riktigheten av beslutningen om å ekskludere.

For å teste nullhypotesen bruker vi følgende statistikk:

,

hvor n = 48, s= 10 - innledende antall faktorer, k= 3 - antall ekskluderte faktorer. Deretter

La oss sammenligne den oppnådde verdien med den kritiske F(α ; 3; 39) på nivåer 0,1; 0,05 og 0,01:

F(0,1; 3; 37) = 2,238;

F(0,05; 3; 37) = 2,86;

F(0,01; 3; 37) = 4,36.

På nivået α = 0,1 F obl > F cr, null - hypotesen forkastes, utelukkelsen av denne gruppen faktorer er ikke begrunnet, ved nivåene 0,05 0,01 null - hypotesen kan ikke forkastes, og utelukkelsen av faktorer kan anses som berettiget.

Eksempel 6. Basert på kvartalsdata fra 2000 til 2004 ble det innhentet en ligning. Samtidig er ESS=110.3, RSS=21.4 (ESS – forklart RMSE, RSS – residual RMSE). Tre dummyvariabler ble lagt til ligningen, tilsvarende årets tre første kvartaler, og ESS-verdien økte til 120,2. Er det sesongvariasjoner i denne ligningen?

Løsning. Dette er en oppgave for å sjekke gyldigheten av å inkludere en gruppe faktorer i den multiple regresjonsligningen. Tre variabler ble lagt til den opprinnelige trefaktorligningen for å representere årets tre første kvartaler.

La oss bestemme koeffisientene for bestemmelse av ligningene. Det totale standardavviket er definert som summen av faktorielle og gjenværende standardavvik:

TSS = ESS 1 + RSS 1 = 110,3 + 21,4 = 131,7

Vi tester hypoteser. For å teste nullhypotesen bruker vi statistikk

Her n= 20 (20 kvartaler over fem år - fra 2000 til 2004), s = 6 (Total faktorer i regresjonsligningen etter å ha inkludert nye faktorer), k= 3 (antall inkluderte faktorer). På denne måten:

La oss bestemme de kritiske verdiene til Fisher-statistikken på ulike nivåer av betydning:

Ved signifikansnivåer på 0,1 og 0,05 F obl> F cr, null - hypotesen forkastes til fordel for den alternative, og sesongvariasjonen i regresjonen er begrunnet (tillegg av tre nye faktorer er berettiget), og på nivået 0,01 F obl< F cr, og null – hypotesen kan ikke forkastes; tillegg av nye faktorer er ikke berettiget, sesongvariasjonen i regresjonen er ikke signifikant.

Eksempel 7 Ved analyse av data for heteroskedastisitet ble hele utvalget delt inn i tre delutvalg etter bestilling etter en av faktorene. Deretter, basert på resultatene av en treveis regresjonsanalyse, ble det bestemt at den resterende SD i den første delprøven var 180, og i den tredje - 63. Er tilstedeværelsen av heteroskedastisitet bekreftet hvis datavolumet i hver delprøve er 20 ?

Løsning. Beregn statistikken for å teste nullhypotesen om homoskedastisitet ved å bruke Goldfeld-Quandt-testen:

.

Finn de kritiske verdiene til Fisher-statistikken:

Derfor, ved signifikansnivåer på 0,1 og 0,05 F obl> F cr, og heteroskedastisitet finner sted, og på nivået 0,01 F obl< F cr, og homoskedastisitetshypotesen kan ikke avvises.

Eksempel 8. Basert på kvartalsdata ble det oppnådd en multippel regresjonsligning der ESS = 120,32 og RSS = 41,4. For samme modell ble det utført regresjoner separat basert på følgende data: 1991 kvartal 1 - 1995 kvartal 1 og 1995 kvartal 2 - 1996 kvartal 4. I disse regresjonene var den resterende RMSE henholdsvis 22,25 og 12,32 . Test hypotesen om tilstedeværelsen av strukturelle endringer i prøven.

Løsning. Problemet med tilstedeværelsen av strukturelle endringer i prøven løses ved å bruke Chow-testen.

Hypoteser har formen: , hvor s0, s 1 og s2 er gjenværende standardavvik for henholdsvis enkeltligningen for hele utvalget og regresjonsligningene for to delprøver av totalutvalget. Hovedhypotesen benekter tilstedeværelsen av strukturelle endringer i utvalget. For å teste nullhypotesen beregnes statistikk ( n = 24; s = 3):

Fordi F er en statistikk som er mindre enn én, betyr null at hypotesen ikke kan forkastes for noen grad av signifikans. For eksempel for et signifikansnivå på 0,05.

Regresjonsanalyse er en statistisk forskningsmetode som lar deg vise en parameters avhengighet av en eller flere uavhengige variabler. I pre-datamaskinen var bruken ganske vanskelig, spesielt når det gjaldt store datamengder. I dag, etter å ha lært hvordan du bygger en regresjon i Excel, kan du løse komplekse statistiske problemer på bare et par minutter. Nedenfor er konkrete eksempler fra økonomifaget.

Typer regresjon

Selve konseptet ble introdusert i matematikk i 1886. Regresjon skjer:

  • lineær;
  • parabolsk;
  • makt;
  • eksponentiell;
  • hyperbolsk;
  • demonstrativ;
  • logaritmisk.

Eksempel 1

Vurder problemet med å bestemme avhengigheten av antall pensjonerte teammedlemmer av gjennomsnittslønnen ved 6 industribedrifter.

En oppgave. Ved seks virksomheter analyserte vi gjennomsnittlig månedslønn og antall ansatte som sluttet pga egen vilje. I tabellform har vi:

Antall personer som dro

Lønn

30 000 rubler

35 000 rubler

40 000 rubler

45 000 rubler

50 000 rubler

55 000 rubler

60 000 rubler

For problemet med å bestemme avhengigheten av antall pensjonerte arbeidere av gjennomsnittslønnen ved 6 bedrifter, har regresjonsmodellen formen av ligningen Y = a 0 + a 1 x 1 +...+a k x k , hvor x i er de påvirkende variablene , a i er regresjonskoeffisientene, a k er antall faktorer.

For denne oppgaven er Y indikatoren på ansatte som sluttet, og den påvirkningsfaktoren er lønnen, som vi betegner med X.

Bruke egenskapene til regnearket "Excel"

Regresjonsanalyse i Excel må innledes med bruk av innebygde funksjoner på tilgjengelige tabelldata. For disse formålene er det imidlertid bedre å bruke det svært nyttige tillegget "Analysis Toolkit". For å aktivere den trenger du:

  • fra "Fil"-fanen, gå til "Alternativer"-delen;
  • i vinduet som åpnes, velg linjen "Tillegg";
  • klikk på "Go"-knappen nederst, til høyre for "Management"-linjen;
  • merk av i boksen ved siden av navnet "Analysepakke" og bekreft handlingene dine ved å klikke "OK".

Hvis alt er gjort riktig, vil den ønskede knappen vises på høyre side av fanen Data, som ligger over Excel-regnearket.

i Excel

Nå som vi har for hånden alle nødvendige virtuelle verktøy for å utføre økonometriske beregninger, kan vi begynne å løse problemet vårt. For dette:

  • klikk på "Dataanalyse"-knappen;
  • i vinduet som åpnes, klikk på "Regresjon" -knappen;
  • i fanen som vises, skriv inn verdiområdet for Y (antall ansatte som slutter) og for X (lønnen deres);
  • Vi bekrefter handlingene våre ved å trykke på "Ok"-knappen.

Som et resultat vil programmet automatisk fylle ut et nytt ark av regnearket med regresjonsanalysedata. Merk! Excel har muligheten til å manuelt angi plasseringen du foretrekker for dette formålet. For eksempel kan det være det samme arket der Y- og X-verdiene er, eller til og med En ny bok, spesielt utviklet for lagring av slike data.

Analyse av regresjonsresultater for R-kvadrat

I Excel ser dataene innhentet under behandlingen av dataene i det vurderte eksemplet slik ut:

Først av alt bør du ta hensyn til verdien av R-kvadrat. Det er bestemmelseskoeffisienten. I dette eksemplet er R-kvadrat = 0,755 (75,5 %), dvs. de beregnede parametrene til modellen forklarer forholdet mellom de vurderte parametrene med 75,5 %. Jo høyere verdi av bestemmelseskoeffisienten er, jo mer anvendelig er den valgte modellen for en bestemt oppgave. Det antas at den korrekt beskriver den virkelige situasjonen med en R-kvadratverdi over 0,8. Hvis R-kvadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Forholdsanalyse

Tallet 64.1428 viser hva verdien av Y vil være hvis alle variablene xi i modellen vi vurderer er satt til null. Det kan med andre ord hevdes at verdien av den analyserte parameteren også påvirkes av andre faktorer som ikke er beskrevet i en bestemt modell.

Den neste koeffisienten -0,16285, som ligger i celle B18, viser vekten av påvirkningen av variabel X på Y. Dette betyr at gjennomsnittlig månedslønn til ansatte innenfor den aktuelle modellen påvirker antall sluttere med en vekt på -0,16285, dvs. graden av dens innflytelse i det hele tatt liten. "-"-tegnet indikerer at koeffisienten har en negativ verdi. Dette er åpenbart, siden alle vet at jo høyere lønn i bedriften, desto færre uttrykker ønske om å si opp arbeidsavtalen eller slutte.

Multippel regresjon

Dette begrepet refererer til en forbindelsesligning med flere uavhengige variabler av formen:

y \u003d f (x 1 + x 2 + ... x m) + ε, hvor y er den effektive egenskapen (avhengig variabel), og x 1 , x 2 , ... x m er faktorfaktorene (uavhengige variabler).

Parameterestimat

For multippel regresjon (MR) utføres det ved hjelp av minste kvadraters metode (OLS). For lineære ligninger av formen Y = a + b 1 x 1 +…+b m x m + ε, konstruerer vi et system med normale ligninger (se nedenfor)

For å forstå prinsippet for metoden, vurder tofaktortilfellet. Da har vi en situasjon beskrevet av formelen

Herfra får vi:

hvor σ er variansen til den tilsvarende egenskapen som reflekteres i indeksen.

LSM er anvendelig for MP-ligningen på en standardiserbar skala. I dette tilfellet får vi ligningen:

hvor t y, t x 1, … t xm er standardiserte variabler der gjennomsnittsverdiene er 0; β i er de standardiserte regresjonskoeffisientene, og standardavviket er 1.

Vær oppmerksom på at alle β i i dette tilfellet er satt som normaliserte og sentraliserte, så sammenligningen deres med hverandre anses som korrekt og tillatt. I tillegg er det vanlig å filtrere ut faktorer, og forkaste de med de minste verdiene av βi.

Problem med å bruke lineær regresjonsligning

Anta at det er en tabell over prisdynamikken til et bestemt produkt N i løpet av de siste 8 månedene. Det er nødvendig å ta en avgjørelse om det er tilrådelig å kjøpe sitt parti til en pris på 1850 rubler / t.

månedsnummer

måneds navn

pris på vare N

1750 rubler per tonn

1755 rubler per tonn

1767 rubler per tonn

1760 rubler per tonn

1770 rubler per tonn

1790 rubler per tonn

1810 rubler per tonn

1840 rubler per tonn

For å løse dette problemet i Excel-regnearket, må du bruke dataanalyseverktøyet som allerede er kjent fra eksemplet ovenfor. Deretter velger du delen "Regresjon" og setter inn parameterne. Det må huskes at i feltet "Inndataintervall Y" må et verdiområde for den avhengige variabelen (i dette tilfellet prisen på et produkt i bestemte måneder av året) angis, og i "Input intervall X" - for den uavhengige variabelen (månedsnummer). Bekreft handlingen ved å klikke "Ok". På et nytt ark (hvis det ble indikert det), får vi data for regresjon.

Basert på dem bygger vi en lineær ligning av formen y=ax+b, der parametrene a og b er koeffisientene til raden med navnet på månedsnummeret og koeffisientene og raden "Y-skjæring" fra ark med resultatene av regresjonsanalysen. Dermed er den lineære regresjonsligningen (LE) for oppgave 3 skrevet som:

Produktpris N = 11.714* månedsnummer + 1727.54.

eller i algebraisk notasjon

y = 11,714 x + 1727,54

Analyse av resultater

For å avgjøre om den resulterende ligningen er tilstrekkelig lineær regresjon, brukes multiple korrelasjonskoeffisienter (MCC) og bestemmelseskoeffisienter, samt Fishers test og Students test. I Excel-tabellen med regresjonsresultater vises de under navn på henholdsvis flere R, R-kvadrat, F-statistikk og t-statistikk.

KMC R gjør det mulig å vurdere stramheten av den sannsynlige sammenhengen mellom de uavhengige og avhengige variablene. Dens høye verdi indikerer et ganske sterkt forhold mellom variablene "Månedens antall" og "Pris på varer N i rubler per 1 tonn". Naturen til dette forholdet er imidlertid fortsatt ukjent.

Kvadraten til bestemmelseskoeffisienten R 2 (RI) er en numerisk karakteristikk av andelen av den totale spredningen og viser spredningen av hvilken del av eksperimentelle data, dvs. verdiene til den avhengige variabelen tilsvarer den lineære regresjonsligningen. I problemet under vurdering er denne verdien lik 84,8%, dvs. de statistiske dataene er beskrevet med høy grad av nøyaktighet av den oppnådde SD.

F-statistikk, også kalt Fishers test, brukes til å vurdere betydningen av en lineær sammenheng, ved å tilbakevise eller bekrefte hypotesen om dens eksistens.

(Students kriterium) hjelper til med å evaluere betydningen av koeffisienten med en ukjent eller fri term for en lineær sammenheng. Hvis verdien av t-kriteriet > t cr, så er hypotesen om ubetydeligheten til det frie leddet lineær ligning avvist.

I oppgaven under vurdering for det frie medlemmet, ved bruk av Excel-verktøyene, ble det oppnådd at t = 169.20903, og p = 2.89E-12, dvs. vi har null sannsynlighet for at den korrekte hypotesen om ubetydeligheten til det frie medlemmet vil være avvist. For koeffisienten ved ukjent t=5,79405, og p=0,001158. Sannsynligheten for at den korrekte hypotesen om koeffisientens insignifikans for det ukjente forkastes er med andre ord 0,12 %.

Dermed kan det hevdes at den resulterende lineære regresjonsligningen er tilstrekkelig.

Problemet med hensiktsmessigheten av å kjøpe en aksjeblokk

Multippel regresjon i Excel utføres ved hjelp av det samme dataanalyseverktøyet. Vurder et spesifikt anvendt problem.

Ledelsen i NNN må ta en beslutning om det er tilrådelig å kjøpe en 20 % eierandel i MMM SA. Kostnaden for pakken (JV) er 70 millioner amerikanske dollar. NNN-spesialister samlet inn data om lignende transaksjoner. Det ble besluttet å evaluere verdien av aksjeblokken i henhold til slike parametere, uttrykt i millioner av amerikanske dollar, som:

  • leverandørgjeld (VK);
  • volum årlig omsetning(VO);
  • kundefordringer (VD);
  • kostnad for anleggsmidler (SOF).

I tillegg brukes parameteren lønnsrestanser til bedriften (V3 P) i tusenvis av amerikanske dollar.

Løsning ved hjelp av Excel-regneark

Først av alt må du lage en tabell med innledende data. Det ser slik ut:

  • kall opp "Data Analysis"-vinduet;
  • velg "Regresjon"-delen;
  • i boksen "Input interval Y" skriv inn verdiområdet for avhengige variabler fra kolonne G;
  • klikk på ikonet med en rød pil til høyre for "Input interval X"-vinduet og velg området for alle verdier fra kolonnene B, C, D, F på arket.

Velg "Nytt regneark" og klikk "OK".

Få regresjonsanalysen for det gitte problemet.

Gjennomgang av resultater og konklusjoner

"Vi samler inn" fra de avrundede dataene presentert ovenfor på Excel-regnearket, regresjonsligningen:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

I det mer kjente matematisk form det kan skrives som:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Data for JSC "MMM" er presentert i tabellen:

Setter de inn i regresjonsligningen, får de et tall på 64,72 millioner amerikanske dollar. Dette betyr at aksjene i JSC MMM ikke bør kjøpes, siden verdien på 70 millioner amerikanske dollar er ganske overvurdert.

Som du kan se, gjorde bruken av Excel-regnearket og regresjonsligningen det mulig å ta en informert beslutning om gjennomførbarheten av en veldig spesifikk transaksjon.

Nå vet du hva regresjon er. Eksemplene i Excel diskutert ovenfor vil hjelpe deg med å løse praktiske problemer fra økonometrifeltet.

Spørsmål:

4. Estimering av parametrene til den lineære modellen for multippel regresjon.

5. Evaluering av kvaliteten på multippel lineær regresjon.

6. Analyse og prognoser basert på multifaktorielle modeller.

Multippel regresjon er en generalisering av parvis regresjon. Den brukes til å beskrive sammenhengen mellom den forklarte (avhengige) variabelen Y og de forklarende (uavhengige) variablene X 1 ,X 2 ,...,X k . Multippel regresjon kan være enten lineær eller ikke-lineær, men lineær multippel regresjon er den mest brukte innen økonomi.

teoretisk lineær modell multippel regresjon ser slik ut:

den tilsvarende prøveregresjonen er angitt med:

Som ved parvis regresjon, må det tilfeldige leddet ε tilfredsstille de grunnleggende forutsetningene for regresjonsanalysen. Deretter, ved hjelp av LSM, oppnås de beste objektive og effektive estimatene av de teoretiske regresjonsparametrene. I tillegg må variablene Х 1 ,Х 2 ,...,Х k være ukorrelerte (lineært uavhengige) med hverandre. For å skrive formlene for å estimere regresjonskoeffisientene (2), oppnådd på grunnlag av LSM, introduserer vi følgende notasjon:

Da kan vi skrive i vektormatriseform teoretisk modell:

og selektiv regresjon

OLS fører til følgende formel for å estimere vektoren av koeffisienter prøveregresjon:

(3)

Å estimere flere lineære regresjonskoeffisienter med to uavhengige variabler , kan vi løse ligningssystemet:

(4)

Som i paret lineær regresjon, for multippel regresjon, beregnes regresjonsstandardfeilen S:

(5)

og standardfeil for regresjonskoeffisientene:

(6)

betydningen av koeffisientene kontrolleres ved hjelp av t-testen.

å ha en Studentfordeling med antall frihetsgrader v= n-k-1.

For å vurdere kvaliteten på regresjonen brukes bestemmelseskoeffisienten (indeksen):

, (8)

jo nærmere 1, jo høyere er kvaliteten på regresjonen.

For å sjekke betydningen av bestemmelseskoeffisienten brukes Fisher-kriteriet eller F-statistikk.



(9)

Med v1=k, v2=n-k-1 frihetsgrader.

Ved multivariat regresjon øker det å legge til flere forklarende variabler bestemmelseskoeffisienten. For å kompensere for en slik økning, innføres en justert (eller normalisert) bestemmelseskoeffisient:

(10)

Hvis økningen i andelen av regresjonen som forklares ved å legge til en ny variabel er liten, kan den avta. Så det er upassende å legge til en ny variabel.

Eksempel 4:

La bedriftens overskudds avhengighet av kostnadene for nytt utstyr og maskiner og av kostnadene ved å forbedre de ansattes ferdigheter vurderes. Samlet inn statistiske data om 6 virksomheter av samme type. Data i millioner den. enheter er gitt i tabell 1.

Tabell 1

Plott toveis lineær regresjon og vurdere dens betydning. La oss introdusere notasjonen:

Vi transponerer matrisen X:

Inversjon av denne matrisen:

dermed kan profitts avhengighet av kostnadene ved nytt utstyr og maskiner og av kostnadene ved å forbedre kompetansen til ansatte beskrives ved følgende regresjon:

Ved å bruke formel (5), hvor k=2, beregner vi standardfeilen for regresjon S=0,636.

Vi beregner standardfeilene til regresjonskoeffisientene ved å bruke formel (6):

På samme måte:

La oss sjekke betydningen av regresjonskoeffisientene a 1 , a 2 . beregne t calc.

Vi velger signifikansnivået, antall frihetsgrader

betyr koeffisient en 1 betydelige.

La oss estimere betydningen av koeffisienten a 2:

Koeffisient en 2 ubetydelig.

La oss beregne bestemmelseskoeffisienten i henhold til formelen (7) . Fortjenesten til bedriften med 96% avhenger av kostnadene for nytt utstyr og maskiner og avansert opplæring med 4% fra andre og tilfeldige faktorer. La oss sjekke betydningen av bestemmelseskoeffisienten. Beregn F beregnet:

deretter. bestemmelseskoeffisienten er signifikant, regresjonsligningen er signifikant.

Av stor betydning i analysen basert på multivariat regresjon er sammenligningen av faktorers påvirkning på den avhengige indikatoren y. Regresjonskoeffisienter brukes ikke til dette formålet, på grunn av forskjeller i måleenheter og varierende grader svingninger. Fra disse manglene er de frie elastisitetskoeffisientene:

Elastisitet viser hvor mange prosent den avhengige indikatoren y endres i gjennomsnitt når variabelen endres med 1 %, forutsatt at verdiene til de andre variablene forblir uendret. Jo større, jo større påvirkning har den tilsvarende variabelen. Som i paret regresjon, for multippel regresjon, skilles det mellom en punktprognose og en intervallprognose. En punktprognose (tall) oppnås ved å erstatte de predikerte verdiene til de uavhengige variablene i den multiple regresjonsligningen. Angi med:

(12)

vektor av prediktive verdier av uavhengige variabler, deretter punktprognose

standard feil prediksjon i tilfelle av multippel regresjon er definert som følger:

(15)

Vi velger signifikansnivået α i henhold til Elevens fordelingstabell. For signifikansnivået α og antall frihetsgrader ν = n-k-1 finner vi t cr. Da faller den sanne verdien av y p med sannsynlighet 1- α inn i intervallet:


Emne 5:

Tidsserier.

Spørsmål:

4. Grunnleggende begreper om tidsserier.

5. Den viktigste utviklingstrenden er en trend.

6. Bygge en additiv modell.

Tidsserier representerer et sett med verdier for en hvilken som helst indikator for flere påfølgende øyeblikk eller tidsperioder.

Tidsøyeblikket (eller tidsperioden) er betegnet med t, og verdien av indikatoren i tidspunktet er betegnet med y (t) og kalles radnivå .

Hvert nivå i tidsserien dannes under påvirkning av et stort antall faktorer som kan deles inn i 3 grupper:

Langsiktige, permanente faktorer som har en avgjørende innflytelse på fenomenet som studeres og utgjør hovedtrenden i serien - trenden T(t).

Kortsiktige periodiske faktorer som danner sesongmessige svingninger av S(t)-serien.

Tilfeldige faktorer som danner tilfeldige endringer i nivåene til serien ε(t).

Additiv modell tidsserier er en modell der hvert nivå i serien er representert ved summen av trenden, sesongmessig og tilfeldig komponent:

Multiplikativ modell er en modell der hvert nivå i serien er produktet av de oppførte komponentene:

Valget av en av modellene er basert på analysen av strukturen til sesongsvingninger. Hvis oscillasjonsamplituden er tilnærmet konstant, bygges en additiv modell. Hvis amplituden øker, så den multiplikative modellen.

Hovedoppgaven til økonometrisk analyse er å identifisere hver av de listede komponentene.

Den viktigste utviklingstrenden (trend) kalt en jevn og stabil endring i nivåene i serien over tid, fri for tilfeldige og sesongmessige svingninger.

Oppgaven med å identifisere de viktigste utviklingstrendene kalles tidsseriejustering .

Tidsseriejusteringsmetoder inkluderer:

1) metoden for forstørrelse av intervaller,

2) metode glidende gjennomsnitt,

3) analytisk justering.

1) Tidsperiodene som nivåene i serien refererer til, forstørres. Deretter summeres nivåene til serien over de forstørrede intervallene. Svingninger i nivåer på grunn av tilfeldige årsaker opphever hverandre. Den generelle trenden er tydeligere avslørt.

2) For å bestemme antall første nivåer i serien, gjennomsnittlig verdi. Deretter beregnes gjennomsnittet fra samme antall nivåer i serien, med start fra andre nivå, og så videre. gjennomsnittsverdien sklir langs dynamikken, og øker med 1 periode (tidspunkt). Antall nivåer i serien som gjennomsnittet beregnes over kan være partall eller oddetall. For et merkelig glidende gjennomsnitt, se midten av glideperioden. For en jevn periode sammenlignes ikke å finne gjennomsnittsverdien med definisjonen av t, men det brukes en sentreringsprosedyre, dvs. beregne gjennomsnittet av to påfølgende glidende gjennomsnitt.

3) Bygging analytisk funksjon karakteriserer avhengigheten av seriens nivå av tid. Følgende funksjoner brukes til å bygge trender:

Trendparametrene bestemmes ved hjelp av minste kvadraters metode. Valget av den beste funksjonen utføres på grunnlag av koeffisienten R 2 .

Vi vil bygge en additiv modell ved å bruke et eksempel.

Eksempel 7:

Det er kvartalsvise data om volumet av strømforbruket i et bestemt område i 4 år. Data i millioner kW i tabell 1.

Tabell 1

Bygg en tidsseriemodell.

I dette eksemplet ser vi på kvartalstallet som en uavhengig variabel, og det kvartalsvise strømforbruket som den avhengige variabelen y(t).

Fra spredningsdiagrammet kan du se at trenden (trenden) er lineær. Du kan også se tilstedeværelsen av sesongsvingninger (periode = 4) med samme amplitude, så vi vil bygge en additiv modell.

Modellbygging inkluderer følgende trinn:

1. Vi vil justere den opprinnelige serien ved å bruke det glidende gjennomsnittet for 4 kvartaler og utføre sentreringen:

1.1. La oss summere nivåene til serien sekvensielt for hvert 4. kvartal med et skifte på 1 tidspunkt.

1.2. Ved å dele de resulterende summene med 4 finner vi de glidende gjennomsnittene.

1.3. Vi bringer disse verdiene i tråd med de faktiske tidspunktene, som vi finner gjennomsnittsverdien for to påfølgende glidende gjennomsnitt - sentrerte glidende gjennomsnitt.

2. Regn ut sesongvariasjonen. Sesongvariasjon (t) = y(t) - sentrert glidende gjennomsnitt. La oss bygge en tabell 2.

tabell 2

Gjennom blokknummer t Strømforbruk Y(t) 4 kvartal glidende gjennomsnitt Sentrert glidende gjennomsnitt Beregning av sesongvariasjoner
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. Ut fra sesongvariasjonen i tabell 3 beregnes sesongkomponenten.

Indikatorer År Kvartalsnummer i år I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Total 1,8 -5,875 -3,825 8,125 Sum
Gjennomsnitt 0,6 -1,958 -1,275 2,708 0,075
Sesongbestemt komponent 0,581 -1,977 -1,294 2,690

4. Eliminer sesongmessig komponent fra de første nivåene i serien:

Konklusjon:

Additivmodellen forklarer 98,4 % generell variasjon nivåer av den opprinnelige tidsserien.

Ved å klikke på "Last ned arkiv"-knappen vil du laste ned filen du trenger gratis.
Før nedlasting gitt fil husk de gode essayene, kontroll, semesteroppgaver, avhandlinger, artikler og andre dokumenter som ikke er gjort krav på på datamaskinen din. Dette er ditt arbeid, det skal delta i samfunnsutviklingen og komme mennesker til gode. Finn disse verkene og send dem til kunnskapsbasen.
Vi og alle studenter, hovedfagsstudenter, unge forskere som bruker kunnskapsbasen i studiene og arbeidet vil være dere veldig takknemlige.

For å laste ned et arkiv med et dokument, skriv inn et femsifret nummer i feltet nedenfor og klikk på "Last ned arkiv"-knappen

###### ## ## ###### ######
## ### ### ## ##
## #### ## ##### ##
## ## ## ## ## ##
## ## ###### ## ## ## ## ##
#### ## ###### #### ####

Skriv inn nummeret vist ovenfor:

Lignende dokumenter

    Grunnleggende om bygging og testing tilstrekkelighet økonomiske modeller multippel regresjon, problemet med spesifikasjonen deres og konsekvensene av feil. Metodisk og informativ støtte for multippel regresjon. Talleksempel flere regresjonsmodeller.

    semesteroppgave, lagt til 02.10.2014

    Konseptet med en multippel regresjonsmodell. Essensen av minste kvadraters metode, som brukes til å bestemme parametrene til den multiple lineære regresjonsligningen. Evaluering av kvaliteten på passformen regresjonsligning til dataene. Bestemmelseskoeffisient.

    semesteroppgave, lagt til 22.01.2015

    Bygge en modell av multippel lineær regresjon i henhold til de gitte parameterne. Evaluering av kvaliteten på modellen ved bestemmelseskoeffisienter og multippelkorrelasjon. Bestemme betydningen av regresjonsligningen basert på Fishers F-test og Students t-test.

    test, lagt til 12.01.2013

    Bygge en multippel regresjonsligning i lineær form med fult sett faktorer, utvalg av informative faktorer. Kontroller signifikansen av regresjonsligningen ved Fishers test og den statistiske signifikansen av regresjonsparameterne ved Students test.

    laboratoriearbeid, lagt til 17.10.2009

    Beskrivelse av den klassiske lineære modellen for multippel regresjon. Analyse av matrisen av sammenkoblede korrelasjonskoeffisienter for tilstedeværelsen av multikollinearitet. Evaluering av den sammenkoblede regresjonsmodellen med den mest signifikante faktoren. Grafisk konstruksjon av prognoseintervallet.

    semesteroppgave, lagt til 17.01.2016

    Faktorer som danner prisen på leiligheter i hus under oppføring i St. Petersburg. Sammenstilling av en matrise av sammenkoblede korrelasjonskoeffisienter for de initiale variablene. Testing av feilene til multippel regresjonsligningen for heteroskedastisitet. Gelfeld-Quandt test.

    test, lagt til 14.05.2015

    Estimering av fordelingen av variabelen X1. Modellering av forholdet mellom variablene Y og X1 ved hjelp av en lineær funksjon og metoden for multippel lineær regresjon. Sammenligning av kvaliteten på de konstruerte modellene. Tegne en punktprognose for gitte verdier.

    semesteroppgave, lagt til 24.06.2015

God ettermiddag, kjære lesere.
I tidligere artikler, ved hjelp av praktiske eksempler, viste jeg hvordan man løser klassifiseringsproblemer (kredittscoringsproblem) og det grunnleggende om tekstinformasjonsanalyse (passproblem). I dag vil jeg komme inn på en annen klasse problemer, nemlig regresjonsgjenoppretting. Oppgaver av denne klassen brukes vanligvis i prognoser.
For et eksempel på å løse et prognoseproblem, tok jeg energieffektivitetsdatasettet fra det største UCI-depotet. Tradisjonelt vil vi bruke Python med pandaer og scikit-learn analytiske pakker som verktøy.

Beskrivelse av datasettet og problemstilling

Et datasett er gitt som beskriver følgende attributter for rommet:

Den inneholder egenskapene til rommet som analysen vil bli utført på grunnlag av, og - belastningsverdiene som må forutsies.

Foreløpig dataanalyse

Først, la oss laste inn dataene våre og se på dem:

Fra pandaer importer read_csv, DataFrame fra sklearn.neighbors importerer KNeighborsRegressor fra sklearn.linear_model import LinearRegression, LogisticRegression fra sklearn.svm importerer SVR fra sklearn.ensemble importerer RandomForestRegressor fra sklearn.metrics = importerer r2_score datasett fra sklearn.metrics = valid_sklearn. /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

La oss nå se om noen attributter er relatert. Dette kan gjøres ved å beregne korrelasjonskoeffisientene for alle kolonnene. Hvordan du gjør dette ble beskrevet i en tidligere artikkel:

datasett.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1,000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1,000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1,000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0,000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1,000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1,000000e+00 0.000000 1.861418e-18 0,000000e+00 0.889431 0.895785
X6 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 1.000000 0,000000e+00 0,000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1,000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0,000000e+00 -1.079129e-16 0,000000e+00 0.000000 2.129642e-01 1,000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Som du kan se fra matrisen vår, korrelerer følgende kolonner med hverandre (verdien av korrelasjonskoeffisienten er større enn 95%):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
La oss nå velge hvilke kolonner av parene våre vi kan fjerne fra utvalget vårt. For å gjøre dette velger vi i hvert par kolonnene som har større innvirkning på de predikerte verdiene Y1 og Y2 og la dem stå, og slett resten.
Som du kan se, matriser med korrelasjonskoeffisienter på y1 ,y2 mer verdi gjengi X2 og X5 enn X1 og X4, så vi kan fjerne de siste kolonnene vi kan.

Datasett = datasett.drop(["X1","X4"], akse=1) datasett.head()
I tillegg kan man se at feltene Y1 og Y2 veldig nært korrelert med hverandre. Men siden vi trenger å forutsi begge verdiene, lar vi dem være "som de er".

Modellvalg

Skill prognoseverdiene fra prøven vår:

Trg = datasett[["Y1","Y2"]] trn = datasett.drop(["Y1","Y2"], akse=1)
Etter å ha behandlet dataene, kan du fortsette med å bygge modellen. For å bygge modellen vil vi bruke følgende metoder:

Teorien om disse metodene kan leses i løpet av forelesninger av K.V. Vorontsov om maskinlæring.
Vi vil evaluere ved å bruke bestemmelseskoeffisienten ( R-firkant). Denne koeffisienten er definert som følger:

Hvor er den betingede variansen til den avhengige variabelen etter faktor X.
Koeffisienten tar en verdi på intervallet og jo nærmere den er 1, desto sterkere er avhengigheten.
Vel, nå kan du gå direkte til å bygge en modell og velge en modell. La oss sette alle modellene våre i én liste for enkelhets skyld for videre analyse:

Modeller=
Så modellene er klare, nå vil vi dele opp våre originale data i 2 delprøver: test og pedagogisk. De som har lest mine tidligere artikler vet at dette kan gjøres ved å bruke train_test_split()-funksjonen fra scikit-learn-pakken:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0.4)
Nå, siden vi trenger å forutsi 2 parametere, må vi bygge en regresjon for hver av dem. I tillegg, for videre analyse, kan du registrere resultatene oppnådd i en midlertidig Dataramme. Du kan gjøre det slik:

#opprett midlertidige strukturer TestModels = DataFrame() tmp = () #for hver modell fra listen for modell i modeller: #hent modellnavnet m = str(modell) tmp["Model"] = m[:m.index( "( ")] #for hver kolonne i resultatsettet for i i xrange(Ytrn.shape): #train the model model.fit(Xtrn, Ytrn[:,i]) #beregn bestemmelseskoeffisienten tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #write data and final DataFrame TestModels = TestModels.append() #make index by model name TestModels.set_index ("Modell", inplace= true)
Som du kan se fra koden ovenfor, brukes funksjonen r2_score() til å beregne koeffisienten.
Så dataene for analyse er mottatt. La oss nå bygge grafer og se hvilken modell som viste best resultat:

Fig, akser = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="(!LANG:R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Analyse av resultater og konklusjoner

Fra grafene over kan vi konkludere med at metoden taklet oppgaven bedre enn andre. Tilfeldig skog(tilfeldig skog). Dens bestemmelseskoeffisienter er høyere enn resten i begge variablene:
For ytterligere analyse, la oss omskole modellen vår:

Model = modelsmodel.fit(Xtrn, Ytrn)
Ved nærmere undersøkelse kan spørsmålet oppstå hvorfor det avhengige utvalget ble delt forrige gang Ytrn til variabler (etter kolonner), og nå gjør vi ikke det.
Faktum er at noen metoder, som f.eks RandomForestRegressor, kan arbeide med flere prediktive variabler, mens andre (f.eks SVR) kan fungere med bare én variabel. Derfor brukte vi i forrige opplæring en partisjon etter kolonner for å unngå feil i prosessen med å bygge noen modeller.
Å velge modell er selvfølgelig bra, men det ville også vært fint å ha informasjon om hvordan hver faktor vil påvirke den predikerte verdien. For å gjøre dette har modellen en egenskap feature_importances_.
Med den kan du se vekten av hver faktor i de endelige modellene:

Model.feature_importances_
array([ 0,40717901, 0,11394948, 0,34984766, 0,00751686, 0,09158358,
0.02992342])

I vårt tilfelle kan man se at totalhøyden og arealet påvirker varme- og kjølebelastningen mest. Deres totale bidrag til den prediktive modellen er omtrent 72 %.
Det skal også bemerkes at i henhold til skjemaet ovenfor kan du se påvirkningen av hver faktor separat på oppvarming og separat på kjøling, men siden disse faktorene er veldig nært korrelert med hverandre (), har vi laget en generell konklusjon på begge dem, som ble skrevet ovenfor.

Konklusjon

I artikkelen prøvde jeg å vise hovedstadiene i regresjonsanalyse data med Python og analytiske pakker pandaer og scikit-learn.
Det skal bemerkes at datasettet ble spesifikt valgt på en slik måte at det var like formalisert og primær behandling inndata vil være minimale. Etter min mening vil artikkelen være nyttig for de som nettopp har startet sin reise innen dataanalyse, samt for de som har et godt teoretisk grunnlag, men velger verktøy for arbeid.