biografieën Eigenschappen Analyse

Kleinste kwadraten oplossing. LSM bij een lineair model

Voorbeeld.

Experimentele gegevens over de waarden van variabelen X en Bij staan ​​in de tabel.

Als resultaat van hun uitlijning, de functie

Gebruik makend van methode kleinste kwadraten , benader deze gegevens met een lineaire afhankelijkheid y=ax+b(zoek opties a en b). Zoek uit welke van de twee lijnen beter is (in de zin van de kleinste-kwadratenmethode) om de experimentele gegevens op één lijn te brengen. Maak een tekening.

De essentie van de methode van de kleinste kwadraten (LSM).

Het probleem is om de lineaire afhankelijkheidscoëfficiënten te vinden waarvoor de functie van twee variabelen a en b accepteert kleinste waarde. Dat wil zeggen, gezien de gegevens a en b de som van de gekwadrateerde afwijkingen van de experimentele gegevens van de gevonden rechte lijn zal het kleinst zijn. Dit is het hele punt van de kleinste-kwadratenmethode.

De oplossing van het voorbeeld wordt dus teruggebracht tot het vinden van het uiterste van een functie van twee variabelen.

Afleiding van formules voor het vinden van coëfficiënten.

Een stelsel van twee vergelijkingen met twee onbekenden wordt samengesteld en opgelost. Partiële afgeleiden van functies vinden door variabelen a en b, stellen we deze derivaten gelijk aan nul.

We lossen het resulterende stelsel vergelijkingen op met elke methode (bijvoorbeeld: substitutie methode: of Cramers methode) en formules te verkrijgen voor het vinden van de coëfficiënten met behulp van de kleinste-kwadratenmethode (LSM).

Met gegevens a en b functie neemt de kleinste waarde. Het bewijs van dit feit is gegeven onder de tekst aan het einde van de pagina.

Dat is de hele methode van de kleinste kwadraten. Formule voor het vinden van de parameter a bevat de sommen ,, en de parameter n- hoeveelheid experimentele data. Het wordt aanbevolen om de waarden van deze bedragen afzonderlijk te berekenen. Coëfficiënt b gevonden na berekening a.

Het is tijd om het originele voorbeeld te onthouden.

Beslissing.

In ons voorbeeld n=5. We vullen de tabel in voor het gemak van het berekenen van de bedragen die zijn opgenomen in de formules van de vereiste coëfficiënten.

De waarden in de vierde rij van de tabel worden verkregen door de waarden van de 2e rij te vermenigvuldigen met de waarden van de 3e rij voor elk nummer i.

De waarden in de vijfde rij van de tabel worden verkregen door de waarden van de 2e rij voor elk nummer te kwadrateren i.

De waarden van de laatste kolom van de tabel zijn de sommen van de waarden over de rijen.

We gebruiken de formules van de kleinste-kwadratenmethode om de coëfficiënten te vinden a en b. We vervangen daarin de overeenkomstige waarden uit de laatste kolom van de tabel:

Vandaar, y=0.165x+2.184 is de gewenste benaderende rechte lijn.

Het blijft om uit te zoeken welke van de lijnen y=0.165x+2.184 of de oorspronkelijke gegevens beter benadert, d.w.z. om een ​​schatting te maken met behulp van de kleinste-kwadratenmethode.

Schatting van de fout van de methode van de kleinste kwadraten.

Om dit te doen, moet u de som van de kwadratische afwijkingen van de originele gegevens van deze lijnen berekenen en , komt een kleinere waarde overeen met een lijn die de oorspronkelijke gegevens beter benadert in termen van de kleinste-kwadratenmethode.

Sinds , dan is de regel y=0.165x+2.184 benadert de oorspronkelijke gegevens beter.

Grafische illustratie van de kleinste-kwadratenmethode (LSM).

Alles ziet er geweldig uit op de grafieken. De rode lijn is de gevonden lijn y=0.165x+2.184, de blauwe lijn is , de roze stippen zijn de originele gegevens.

In de praktijk worden bij het modelleren van verschillende processen - met name economisch, fysiek, technisch, sociaal - deze of die methoden voor het berekenen van de geschatte waarden van functies uit hun bekende waarden op sommige vaste punten veel gebruikt.

Problemen met de onderlinge aanpassing van dit soort functies doen zich vaak voor:

    bij het construeren van benaderende formules voor het berekenen van de waarden van de karakteristieke hoeveelheden van het onderzochte proces volgens de tabelgegevens die zijn verkregen als resultaat van het experiment;

    in numerieke integratie, differentiatie, oplossing differentiaalvergelijkingen enzovoort.;

    als het nodig is om de waarden van functies op tussenliggende punten van het beschouwde interval te berekenen;

    bij het bepalen van de waarden van de karakteristieke grootheden van het proces buiten het beschouwde interval, in het bijzonder bij het voorspellen.

Als, om een ​​bepaald proces gespecificeerd door een tabel te modelleren, een functie wordt geconstrueerd die dit proces bij benadering beschrijft op basis van de kleinste-kwadratenmethode, wordt dit een benaderingsfunctie (regressie) genoemd, en de taak van het construeren van benaderingsfuncties zelf zal een benaderingsprobleem zijn.

Dit artikel bespreekt de mogelijkheden van het MS Excel-pakket om dergelijke problemen op te lossen, daarnaast worden methoden en technieken gegeven voor het construeren (maken) van regressies voor in tabelvorm gegeven functies (wat de basis is van regressieanalyse).

Er zijn twee opties voor het bouwen van regressies in Excel.

    Geselecteerde regressies toevoegen ( trendlijnen- trendlijnen) in een grafiek gebouwd op basis van een gegevenstabel voor de bestudeerde proceskarakteristiek (alleen beschikbaar als er een grafiek is gebouwd);

    Met behulp van de ingebouwde statistische functies van een Excel-werkblad waarmee u regressies (trendlijnen) rechtstreeks uit een tabel met brongegevens kunt halen.

Trendlijnen toevoegen aan een grafiek

Voor een gegevenstabel die een bepaald proces beschrijft en weergegeven door een diagram, heeft Excel een effectief hulpmiddel voor regressieanalyse waarmee u:

    bouwen op basis van de kleinste-kwadratenmethode en vijf toevoegen aan het diagram soorten regressies, die, met wisselende mate van nauwkeurigheid, het bestudeerde proces modelleren;

    voeg een vergelijking van de geconstrueerde regressie toe aan het diagram;

    bepaal de mate van overeenstemming van de geselecteerde regressie met de gegevens die in de grafiek worden weergegeven.

Op basis van de grafiekgegevens kunt u met Excel lineaire, polynomiale, logaritmische, exponentiële, exponentiële soorten regressies krijgen, die worden gegeven door de vergelijking:

y = y(x)

waarbij x een onafhankelijke variabele is, die vaak de waarden van een reeks natuurlijke getallen (1; 2; 3; ...) aanneemt en bijvoorbeeld een aftelling produceert van de tijd van het onderzochte proces (kenmerken) .

1 . Lineaire regressie is goed in het modelleren van kenmerken die met een constante snelheid toenemen of afnemen. Dit is het eenvoudigste model van het bestudeerde proces. Het is gebouwd volgens de vergelijking:

y=mx+b

waarbij m de tangens van de helling is lineaire regressie naar de x-as; b - coördinaat van het snijpunt van de lineaire regressie met de y-as.

2 . Een polynomiale trendlijn is handig voor het beschrijven van kenmerken met verschillende extremen (hoogte- en dieptepunten). De keuze van de graad van het polynoom wordt bepaald door het aantal extrema van het te bestuderen kenmerk. Een polynoom van de tweede graad kan dus een proces beschrijven dat slechts één maximum of minimum heeft; polynoom van de derde graad - niet meer dan twee extrema; polynoom van de vierde graad - niet meer dan drie extremen, enz.

In dit geval wordt de trendlijn gebouwd in overeenstemming met de vergelijking:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

waarbij de coëfficiënten c0, c1, c2,... c6 constanten zijn waarvan de waarden tijdens de constructie worden bepaald.

3 . De logaritmische trendlijn wordt met succes gebruikt bij het modelleren van kenmerken, waarvan de waarden eerst snel veranderen en vervolgens geleidelijk stabiliseren.

y = c ln(x) + b

4 . De machtstrendlijn geeft goede resultaten als de waarden van de bestudeerde afhankelijkheid worden gekenmerkt door een constante verandering in de groeisnelheid. Een voorbeeld van een dergelijke afhankelijkheid kan dienen als een grafiek van een eenparig versnelde beweging van de auto. Als er nul of negatieve waarden, kunt u geen powertrendlijn gebruiken.

Het is gebouwd in overeenstemming met de vergelijking:

y = cxb

waarbij de coëfficiënten b, c constanten zijn.

5 . Een exponentiële trendlijn moet worden gebruikt als de snelheid van verandering in de gegevens continu toeneemt. Voor gegevens die nul of negatieve waarden bevatten, is dit soort benadering ook niet van toepassing.

Het is gebouwd in overeenstemming met de vergelijking:

y=cebx

waarbij de coëfficiënten b, c constanten zijn.

Bij het selecteren van een trendlijn berekent Excel automatisch de waarde van R2, die de nauwkeurigheid van de benadering kenmerkt: hoe dichter de R2-waarde bij één ligt, hoe betrouwbaarder de trendlijn het onderzochte proces benadert. Indien nodig kan de waarde van R2 altijd op het diagram worden weergegeven.

Bepaald door de formule:

Een trendlijn toevoegen aan een gegevensreeks:

    activeer de grafiek die is gebouwd op basis van de gegevensreeks, d.w.z. klik binnen het grafiekgebied. Het item Kaart verschijnt in het hoofdmenu;

    nadat u op dit item hebt geklikt, verschijnt een menu op het scherm waarin u het commando Trendlijn toevoegen moet selecteren.

Dezelfde acties kunnen eenvoudig worden uitgevoerd als u de muisaanwijzer op de grafiek plaatst die overeenkomt met een van de gegevensreeksen en met de rechtermuisknop klikt; Selecteer in het contextmenu dat verschijnt de opdracht Trendlijn toevoegen. Het dialoogvenster Trendlijn verschijnt op het scherm met het tabblad Type geopend (Fig. 1).

Daarna heb je nodig:

Selecteer op het tabblad Type het gewenste type trendlijn (standaard is Lineair geselecteerd). Geef voor het type Polynoom in het veld Graden de graad van de geselecteerde polynoom op.

1 . In het veld Gebouwd op reeks worden alle gegevensreeksen in de betreffende grafiek weergegeven. Om een ​​trendlijn aan een specifieke gegevensreeks toe te voegen, selecteert u de naam ervan in het veld Gebouwd op reeks.

Indien nodig kunt u door naar het tabblad Parameters (Fig. 2) te gaan de volgende parameters voor de trendlijn instellen:

    verander de naam van de trendlijn in het veld Naam van de benaderende (afgevlakte) curve.

    stel het aantal perioden (vooruit of achteruit) in voor de prognose in het veld Prognose;

    toon de vergelijking van de trendlijn in het grafiekgebied, waarvoor u het selectievakje moet inschakelen om de vergelijking op de grafiek te tonen;

    toon de waarde van de benaderingsbetrouwbaarheid R2 in het diagramgebied, waarvoor u het selectievakje moet inschakelen plaats de waarde van de benaderingsbetrouwbaarheid (R^2) op het diagram;

    stel het snijpunt van de trendlijn met de Y-as in, waarvoor u het selectievakje Snijpunt van de curve met de Y-as op een punt moet inschakelen;

    klik op de knop OK om het dialoogvenster te sluiten.

Er zijn drie manieren om een ​​reeds gebouwde trendlijn te gaan bewerken:

    gebruik de opdracht Geselecteerde trendlijn in het menu Opmaak, nadat u de trendlijn hebt geselecteerd;

    selecteer de opdracht Trendlijn opmaken in het contextmenu, dat wordt opgeroepen door met de rechtermuisknop op de trendlijn te klikken;

    door te dubbelklikken op de trendlijn.

Het dialoogvenster Trendlijn opmaken verschijnt op het scherm (Fig. 3), met drie tabbladen: Weergave, Type, Parameters, en de inhoud van de laatste twee valt volledig samen met de vergelijkbare tabbladen van het dialoogvenster Trendlijn (Fig. 1-2). ). Op het tabblad Weergave kunt u het lijntype, de kleur en dikte ervan instellen.

Om een ​​reeds aangelegde trendlijn te verwijderen, selecteert u de te verwijderen trendlijn en drukt u op de Delete-toets.

De voordelen van de weloverwogen regressieanalysetool zijn:

    het relatieve gemak van het plotten van een trendlijn in grafieken zonder er een gegevenstabel voor te maken;

    een vrij brede lijst van soorten voorgestelde trendlijnen, en deze lijst bevat de meest gebruikte soorten regressie;

    de mogelijkheid om het gedrag van het bestudeerde proces te voorspellen voor een willekeurige (binnen gezond verstand) het aantal stappen vooruit en achteruit;

    de mogelijkheid om de vergelijking van de trendlijn in een analytische vorm te verkrijgen;

    de mogelijkheid om, indien nodig, een beoordeling te krijgen van de betrouwbaarheid van de benadering.

De nadelen zijn onder meer de volgende punten:

    de constructie van een trendlijn wordt alleen uitgevoerd als er een grafiek is gebouwd op een reeks gegevens;

    het proces van het genereren van gegevensreeksen voor het onderzochte kenmerk op basis van de daarvoor verkregen trendlijnvergelijkingen is enigszins rommelig: de vereiste regressievergelijkingen worden bijgewerkt bij elke wijziging in de waarden van de originele gegevensreeks, maar alleen binnen het grafiekgebied , terwijl de gegevensreeksen gevormd op basis van de oude lijnvergelijkingstrend ongewijzigd blijven;

    Wanneer u in draaigrafiekrapporten de grafiekweergave of het gekoppelde draaitabelrapport wijzigt, blijven bestaande trendlijnen niet behouden, dus u moet ervoor zorgen dat de lay-out van het rapport aan uw vereisten voldoet voordat u trendlijnen tekent of het draaigrafiekrapport op een andere manier opmaakt.

Trendlijnen kunnen worden toegevoegd aan gegevensreeksen die worden weergegeven in grafieken, zoals een grafiek, histogram, platte niet-genormaliseerde vlakgrafieken, staaf-, spreidings-, bellen- en aandelengrafieken.

U kunt geen trendlijnen toevoegen aan gegevensreeksen op 3D-, standaard-, radar-, taart- en donutdiagrammen.

Ingebouwde Excel-functies gebruiken

Excel biedt ook een hulpmiddel voor regressieanalyse voor het plotten van trendlijnen buiten het grafiekgebied. Voor dit doel kunnen een aantal statistische werkbladfuncties worden gebruikt, maar ze stellen u allemaal in staat om alleen lineaire of exponentiële regressies te bouwen.

Excel heeft verschillende functies voor het bouwen van lineaire regressie, met name:

    TREND;

  • HELLING en GESNEDEN.

Evenals verschillende functies voor het construeren van een exponentiële trendlijn, in het bijzonder:

    LGRFPca.

Opgemerkt moet worden dat de technieken voor het construeren van regressies met behulp van de TREND- en GROWTH-functies praktisch hetzelfde zijn. Hetzelfde kan gezegd worden over het paar functies LIJNSCH en LGRFPRIBL. Voor deze vier functies worden bij het maken van een tabel met waarden Excel-functies zoals matrixformules gebruikt, wat het proces van het maken van regressies enigszins vertroebelt. We merken ook op dat de constructie van een lineaire regressie naar onze mening het gemakkelijkst te implementeren is met behulp van de functies SLOPE en INTERCEPT, waarbij de eerste de helling van de lineaire regressie bepaalt en de tweede het segment bepaalt dat door de regressie wordt afgesneden op de y-as.

De voordelen van de ingebouwde functietool voor regressieanalyse zijn:

    een vrij eenvoudig proces van hetzelfde type vorming van gegevensreeksen van het kenmerk dat wordt bestudeerd voor alle ingebouwde statistische functies die trendlijnen bepalen;

    een standaardtechniek voor het construeren van trendlijnen op basis van de gegenereerde datareeksen;

    de mogelijkheid om het gedrag van het bestudeerde proces te voorspellen benodigde hoeveelheid stappen vooruit of achteruit.

En de nadelen zijn onder meer het feit dat Excel geen ingebouwde functies heeft voor het maken van andere (behalve lineaire en exponentiële) soorten trendlijnen. Deze omstandigheid maakt het vaak niet mogelijk om een ​​voldoende nauwkeurig model van het bestudeerde proces te kiezen, en ook niet om voorspellingen te verkrijgen die dicht bij de werkelijkheid liggen. Bovendien zijn bij gebruik van de functies TREND en GROW de vergelijkingen van de trendlijnen niet bekend.

Opgemerkt moet worden dat de auteurs niet het doel van het artikel hebben gesteld om het verloop van de regressieanalyse in verschillende mate van volledigheid te presenteren. De belangrijkste taak is om aan de hand van specifieke voorbeelden de mogelijkheden van het Excel-pakket te tonen bij het oplossen van benaderingsproblemen; demonstreren welke effectieve tools Excel heeft voor het bouwen van regressies en prognoses; illustreren hoe relatief eenvoudig dergelijke problemen kunnen worden opgelost, zelfs door een gebruiker die geen diepgaande kennis heeft van regressieanalyse.

Voorbeelden van het oplossen van specifieke problemen

Overweeg de oplossing van specifieke problemen met behulp van de vermelde tools van het Excel-pakket.

Taak 1

Met een tabel met gegevens over de winst van een autotransportbedrijf voor 1995-2002. u moet het volgende doen.

    Bouw een grafiek.

    Voeg lineaire en polynomiale (kwadratische en kubieke) trendlijnen toe aan de grafiek.

    Gebruik de trendlijnvergelijkingen om tabelgegevens te verkrijgen over de winst van de onderneming voor elke trendlijn voor 1995-2004.

    Maak een winstprognose voor de onderneming voor 2003 en 2004.

De oplossing van het probleem

    In het cellenbereik A4:C11 van het Excel-werkblad voeren we het werkblad in dat wordt getoond in Fig. 4.

    Nadat we het celbereik B4:C11 hebben geselecteerd, bouwen we een grafiek.

    We activeren de geconstrueerde grafiek en, volgens de hierboven beschreven methode, na het selecteren van het type trendlijn in het dialoogvenster Trendlijn (zie Fig. 1), voegen we afwisselend lineaire, kwadratische en kubieke trendlijnen toe aan de grafiek. Open in hetzelfde dialoogvenster het tabblad Parameters (zie Fig. 2), voer in het veld Naam van de benaderende (afgevlakte) curve de naam van de toegevoegde trend in en stel in het veld Vooruitzicht voor: perioden de waarde in 2, aangezien het de bedoeling is om voor twee jaar een winstprognose te maken. Om de regressievergelijking en de bR2 in het diagramgebied weer te geven, schakelt u de selectievakjes Toon de vergelijking op het scherm in en plaatst u de b(R^2) op het diagram. Voor een betere visuele waarneming veranderen we het type, de kleur en de dikte van de geconstrueerde trendlijnen, waarvoor we het tabblad Weergave van het dialoogvenster Trendlijnopmaak gebruiken (zie Fig. 3). De resulterende grafiek met toegevoegde trendlijnen wordt getoond in Fig. 5.

    Gegevens in tabelvorm verkrijgen over de winst van de onderneming voor elke trendlijn voor 1995-2004. Laten we de vergelijkingen van de trendlijnen gebruiken die in Fig. 5. Voer hiervoor in de cellen van het D3:F3-bereik tekstuele informatie in over het type geselecteerde trendlijn: lineaire trend, kwadratische trend, kubieke trend. Voer vervolgens de lineaire regressieformule in cel D4 in en kopieer met behulp van de vulmarkering deze formule met relatieve verwijzingen naar het celbereik D5:D13. Opgemerkt moet worden dat elke cel met een lineaire regressieformule uit het celbereik D4:D13 een overeenkomstige cel uit het bereik A4:A13 als argument heeft. Evenzo wordt voor kwadratische regressie het celbereik E4:E13 gevuld en voor kubieke regressie het celbereik F4:F13. Zo werd een prognose gemaakt voor de winst van de onderneming voor 2003 en 2004. met drie trends. De resulterende tabel met waarden wordt getoond in Fig. 6.

Taak 2

    Bouw een grafiek.

    Voeg logaritmische, exponentiële en exponentiële trendlijnen toe aan de grafiek.

    Leid de vergelijkingen van de verkregen trendlijnen af, evenals de waarden van de benaderingsbetrouwbaarheid R2 voor elk van hen.

    Gebruik de trendlijnvergelijkingen om tabelgegevens te verkrijgen over de winst van de onderneming voor elke trendlijn voor 1995-2002.

    Maak een winstprognose voor het bedrijf voor 2003 en 2004 met behulp van deze trendlijnen.

De oplossing van het probleem

Door de methodologie te volgen die is gegeven bij het oplossen van probleem 1, verkrijgen we een diagram met toegevoegde logaritmische, exponentiële en exponentiële trendlijnen (Fig. 7). Verder vullen we met behulp van de verkregen trendlijnvergelijkingen de tabel met waarden voor de winst van de onderneming in, inclusief de voorspelde waarden voor 2003 en 2004. (Afb. 8).

Op afb. 5 en afb. te zien is dat het model met een logaritmische trend overeenkomt met de laagste waarde van de benaderingsbetrouwbaarheid

R2 = 0,8659

De hoogste waarden van R2 komen overeen met modellen met een polynomiale trend: kwadratisch (R2 = 0,9263) en kubisch (R2 = 0,933).

Taak 3

Bij een tabel met gegevens over de winst van een motorvervoerbedrijf 1995-2002, gegeven in taak 1, moet u de volgende stappen uitvoeren.

    Verkrijg gegevensreeksen voor lineaire en exponentiële trendlijnen met behulp van de TREND- en GROW-functies.

    Maak met behulp van de functies TREND en GROEI een winstprognose voor het bedrijf voor 2003 en 2004.

    Maak voor de initiële gegevens en de ontvangen gegevensreeksen een diagram.

De oplossing van het probleem

Laten we het werkblad van taak 1 gebruiken (zie Fig. 4). Laten we beginnen met TREND-functies:

    selecteer het cellenbereik D4:D11, dat moet worden gevuld met de waarden van de TREND-functie die overeenkomen met de bekende gegevens over de winst van de onderneming;

    roep de opdracht Functie aan vanuit het menu Invoegen. Selecteer in het dialoogvenster Functiewizard dat verschijnt de functie TREND in de categorie Statistisch en klik vervolgens op de knop OK. Dezelfde bewerking kan worden uitgevoerd door op de knop (functie Invoegen) van de standaardwerkbalk te drukken.

    Voer in het dialoogvenster Functieargumenten dat verschijnt het celbereik C4:C11 in het veld Bekende_waarden_y in; in het veld Known_values_x - het celbereik B4:B11;

    gebruik de toetsencombinatie + + om van de ingevoerde formule een matrixformule te maken.

De formule die we in de formulebalk hebben ingevoerd, ziet er als volgt uit: =(TREND(C4:C11;B4:B11)).

Als gevolg hiervan is het cellenbereik D4:D11 gevuld met de overeenkomstige waarden van de TREND-functie (Fig. 9).

Een prognose maken van de winst van het bedrijf voor 2003 en 2004. vereist:

    selecteer het celbereik D12:D13, waar de waarden die worden voorspeld door de TREND-functie worden ingevoerd.

    roep de TREND-functie aan en voer in het dialoogvenster Functieargumenten dat verschijnt in het veld Known_values_y - het celbereik C4:C11 in; in het veld Known_values_x - het celbereik B4:B11; en in het veld New_values_x - het celbereik B12:B13.

    verander deze formule in een matrixformule met behulp van de sneltoets Ctrl + Shift + Enter.

    De ingevoerde formule ziet er als volgt uit: =(TREND(C4:C11;B4:B11;B12:B13)), en het celbereik D12:D13 wordt gevuld met de voorspelde waarden van de TREND-functie (zie Fig. 9).

Op dezelfde manier wordt een gegevensreeks gevuld met behulp van de GROEI-functie, die wordt gebruikt bij de analyse van niet-lineaire afhankelijkheden en precies hetzelfde werkt als zijn lineaire tegenhanger TREND.

Afbeelding 10 toont de tabel in formuleweergavemodus.

Voor de initiële gegevens en de verkregen gegevensreeksen wordt het diagram getoond in Fig. elf.

Taak 4

Met de tabel met gegevens over de ontvangst van aanvragen voor diensten door de verzendingsdienst van het motorvervoerbedrijf voor de periode van de 1e tot de 11e dag van de lopende maand, moeten de volgende acties worden uitgevoerd.

    Verkrijg gegevensreeksen voor lineaire regressie: met behulp van de functies SLOPE en INTERCEPT; met behulp van de LIJNSCH-functie.

    Haal een gegevensreeks op voor exponentiële regressie met behulp van de LYFFPRIB-functie.

    Maak met behulp van de bovenstaande functies een prognose over de ontvangst van aanvragen bij de verzendservice voor de periode van de 12e tot de 14e dag van de huidige maand.

    Maak voor de originele en ontvangen gegevensreeks een diagram.

De oplossing van het probleem

Merk op dat, in tegenstelling tot de TREND- en GROW-functies, geen van de bovenstaande functies (SLOPE, INTERCEPTION, LINEST, LGRFPRIB) regressies zijn. Deze functies spelen slechts een ondersteunende rol en bepalen de noodzakelijke regressieparameters.

Voor lineaire en exponentiële regressies die zijn gebouwd met de functies HELLING, INTERCEPT, LIJNSCH, LGRFPRIB, is het uiterlijk van hun vergelijkingen altijd bekend, in tegenstelling tot de lineaire en exponentiële regressies die overeenkomen met de functies TREND en GROEI.

1 . Laten we een lineaire regressie bouwen met de vergelijking:

y=mx+b

met behulp van de SLOPE- en INTERCEPT-functies, waarbij de helling van de regressie m wordt bepaald door de SLOPE-functie, en de constante term b - door de INTERCEPT-functie.

Hiervoor voeren we de volgende handelingen uit:

    voer de brontabel in het celbereik A4:B14 in;

    de waarde van de parameter m wordt bepaald in cel C19. Selecteer uit de categorie Statistisch de functie Helling; voer het celbereik B4:B14 in het veld bekende_waarden_y en het bereik van cellen A4:A14 in het veld bekende_waarden_x in. De formule wordt in cel C19 ingevoerd: =SLOPE(B4:B14;A4:A14);

    met een vergelijkbare methode wordt de waarde van de parameter b in cel D19 bepaald. En de inhoud ziet er als volgt uit: = INTERCEPT(B4:B14;A4:A14). De waarden van de parameters m en b die nodig zijn voor het construeren van een lineaire regressie, worden dus respectievelijk opgeslagen in cellen C19, D19;

    dan voeren we de lineaire regressieformule in cel C4 in in de vorm: = $ C * A4 + $ D. In deze formule worden de cellen C19 en D19 geschreven met absolute verwijzingen (het celadres mag niet veranderen bij mogelijk kopiëren). Het absolute referentieteken $ kan worden getypt vanaf het toetsenbord of met de F4-toets, nadat de cursor op het celadres is geplaatst. Kopieer deze formule met behulp van de vulgreep naar het celbereik C4:C17. We krijgen de gewenste gegevensreeks (Fig. 12). Omdat het aantal verzoeken een geheel getal is, moet u de getalnotatie op het tabblad Getal van het venster Celopmaak instellen met het aantal decimalen op 0.

2 . Laten we nu een lineaire regressie bouwen die wordt gegeven door de vergelijking:

y=mx+b

met behulp van de LIJNSCH-functie.

Voor deze:

    voer de LIJNSCH-functie in als een matrixformule in het celbereik C20:D20: =(LIJNSCH(B4:B14;A4:A14)). Als resultaat krijgen we de waarde van de parameter m in cel C20 en de waarde van de parameter b in cel D20;

    voer de formule in cel D4 in: =$C*A4+$D;

    kopieer deze formule met behulp van de vulmarkering naar het celbereik D4:D17 en verkrijg de gewenste gegevensreeks.

3 . We bouwen een exponentiële regressie met de vergelijking:

met behulp van de LGRFPRIBL-functie wordt het op dezelfde manier uitgevoerd:

    voer in het celbereik C21:D21 de functie LGRFPRIBL in als een matrixformule: =( LGRFPRIBL (B4:B14;A4:A14)). In dit geval wordt de waarde van parameter m bepaald in cel C21 en wordt de waarde van parameter b bepaald in cel D21;

    de formule wordt ingevoerd in cel E4: =$D*$C^A4;

    met behulp van de vulmarkering wordt deze formule gekopieerd naar het celbereik E4:E17, waar de gegevensreeksen voor exponentiële regressie zich bevinden (zie Fig. 12).

Op afb. 13 toont een tabel met de functies die we gebruiken met de benodigde celbereiken, evenals formules.

Waarde R 2 genaamd bepalingscoëfficiënt.

De taak van het construeren van een regressieafhankelijkheid is het vinden van de vector van coëfficiënten m van het model (1) waarbij de coëfficiënt R de maximale waarde aanneemt.

Om de significantie van R te beoordelen, wordt Fisher's F-test gebruikt, berekend met de formule

waar n- steekproefomvang (aantal experimenten);

k is het aantal modelcoëfficiënten.

Als F een kritische waarde voor de gegevens overschrijdt n en k en het geaccepteerde betrouwbaarheidsniveau, dan wordt de waarde van R als significant beschouwd. Tabellen met kritische waarden van F worden gegeven in naslagwerken over wiskundige statistiek.

De significantie van R wordt dus niet alleen bepaald door zijn waarde, maar ook door de verhouding tussen het aantal experimenten en het aantal coëfficiënten (parameters) van het model. Inderdaad, de correlatieverhouding voor n=2 voor een eenvoudig lineair model is 1 (door 2 punten op het vlak kun je altijd een enkele rechte lijn tekenen). Als de experimentele gegevens echter willekeurige variabelen zijn, moet een dergelijke waarde van R met grote zorg worden vertrouwd. Om een ​​significante R en betrouwbare regressie te verkrijgen, is het gewoonlijk bedoeld om ervoor te zorgen dat het aantal experimenten het aantal modelcoëfficiënten (n>k) aanzienlijk overschrijdt.

Om een ​​lineair regressiemodel te bouwen, moet u:

1) maak een lijst van n rijen en m kolommen met de experimentele gegevens (kolom met de uitvoerwaarde) ja moet de eerste of de laatste in de lijst zijn); laten we bijvoorbeeld de gegevens van de vorige taak nemen en een kolom toevoegen met de naam "periodenummer", waarbij het aantal perioden wordt genummerd van 1 tot 12. (dit zijn de waarden X)

2) ga naar menu Data/Data-analyse/Regressie

Als het item "Gegevensanalyse" in het menu "Extra" ontbreekt, moet u naar het item "Invoegtoepassingen" van hetzelfde menu gaan en het vakje "Analysepakket" aanvinken.

3) stel in het dialoogvenster "Regressie" in:

invoerinterval Y;

invoerinterval X;

uitvoerinterval - de cel linksboven in het interval waarin de berekeningsresultaten worden geplaatst (het wordt aanbevolen om deze op een nieuw werkblad te plaatsen);

4) klik op "Ok" en analyseer de resultaten.

Het heeft veel toepassingen omdat het een benadering bij benadering mogelijk maakt gegeven functie andere zijn eenvoudiger. LSM kan uiterst nuttig zijn bij het verwerken van waarnemingen en wordt actief gebruikt om sommige hoeveelheden te schatten op basis van de resultaten van metingen van andere die willekeurige fouten. In dit artikel leert u hoe u kleinste-kwadratenberekeningen in Excel kunt implementeren.

Verklaring van het probleem op een specifiek voorbeeld

Stel dat er twee indicatoren X en Y zijn. Bovendien hangt Y af van X. Aangezien OLS ons interesseert vanuit het oogpunt van regressieanalyse (in Excel worden de methoden geïmplementeerd met behulp van ingebouwde functies), moeten we onmiddellijk doorgaan om een ​​specifiek probleem te overwegen.

Dus laat X zijn handelsgebied supermarkt, gemeten in vierkante meters, en Y is de jaaromzet, gedefinieerd in miljoenen roebel.

Het is nodig om een ​​prognose te maken van de omzet (Y) die de winkel zal hebben als deze een of ander verkoopgebied heeft. Het is duidelijk dat de functie Y = f (X) toeneemt, aangezien de hypermarkt meer goederen verkoopt dan de kraam.

Een paar woorden over de juistheid van de initiële gegevens die voor de voorspelling zijn gebruikt

Laten we zeggen dat we een tabel hebben gebouwd met gegevens voor n winkels.

Volgens wiskundige statistiek, zullen de resultaten min of meer correct zijn als de gegevens van minimaal 5-6 objecten worden onderzocht. Ook kunnen "abnormale" resultaten niet worden gebruikt. In het bijzonder kan een elite kleine boetiek een omzet hebben die vele malen groter is dan de omzet van grote verkooppunten van de "masmarket"-klasse.

De essentie van de methode

De tabelgegevens kunnen worden weergegeven in: cartesiaans vlak in de vorm van punten M 1 (x 1, y 1), ... M n (x n, y n). Nu zal de oplossing van het probleem worden teruggebracht tot de selectie van een benaderingsfunctie y = f (x), die een grafiek heeft die zo dicht mogelijk bij de punten M 1, M 2, .. M n loopt.

Natuurlijk kunt u de polynoom hoge graad, maar deze optie is niet alleen moeilijk te implementeren, maar ook gewoon onjuist, omdat het niet de belangrijkste trend weerspiegelt die moet worden gedetecteerd. De meest redelijke oplossing is om de rechte lijn y = ax + b te vinden, die het best de experimentele gegevens benadert, of liever de coëfficiënten - a en b.

Nauwkeurigheidsscore

Voor elke benadering is de beoordeling van de nauwkeurigheid ervan van bijzonder belang. Geef met e i het verschil (afwijking) aan tussen de functionele en experimentele waarden voor het punt x i , d.w.z. e i = y i - f (x i).

Het is duidelijk dat u, om de nauwkeurigheid van de benadering te beoordelen, de som van de afwijkingen kunt gebruiken, d.w.z. bij het kiezen van een rechte lijn voor een geschatte weergave van de afhankelijkheid van X van Y, moet de voorkeur worden gegeven aan degene met de kleinste waarde van de som e i op alle beschouwde punten. Niet alles is echter zo eenvoudig, want naast positieve afwijkingen zullen er praktisch ook negatieve aanwezig zijn.

U kunt het probleem oplossen met behulp van de afwijkingsmodules of hun vierkanten. De laatste methode ontving de meeste breed gebruik. Het wordt op veel gebieden gebruikt, waaronder regressieanalyse (in Excel wordt de implementatie uitgevoerd met behulp van twee ingebouwde functies), en het is al lang bewezen effectief te zijn.

Kleinste vierkante methode

Zoals u weet, is er in Excel een ingebouwde autosum-functie waarmee u de waarden kunt berekenen van alle waarden die zich in het geselecteerde bereik bevinden. Niets belet ons dus om de waarde van de uitdrukking te berekenen (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

In wiskundige notatie ziet dit er als volgt uit:

Aangezien de beslissing aanvankelijk werd genomen om te benaderen met een rechte lijn, hebben we:

De taak om een ​​rechte lijn te vinden die het beste een specifieke relatie tussen X en Y beschrijft, komt dus neer op het berekenen van het minimum van een functie van twee variabelen:

Dit vereist het gelijkstellen aan nul partiële afgeleiden met betrekking tot nieuwe variabelen a en b, en het oplossen van een primitief systeem bestaande uit twee vergelijkingen met 2 onbekenden van de vorm:

Na eenvoudige transformaties, inclusief delen door 2 en het manipuleren van de sommen, krijgen we:

Als we het bijvoorbeeld oplossen met de Cramer-methode, krijgen we: stationair punt met enkele coëfficiënten a * en b * . Dit is het minimum, d.w.z. om te voorspellen welke omzet de winkel wanneer zal hebben bepaald gebied, de rechte lijn y \u003d a * x + b * is voldoende, namelijk regressie model voor het betreffende voorbeeld. Natuurlijk laat ze je niet vinden exact resultaat, maar het zal u helpen een idee te krijgen of het kopen van een winkel op krediet voor een bepaald gebied loont.

Hoe de kleinste-kwadratenmethode in Excel te implementeren?

Excel heeft een functie voor het berekenen van de waarde van de kleinste kwadraten. Zij heeft volgende weergave: "TREND" (bekende Y-waarden; bekende X-waarden; nieuwe X-waarden; constant). Laten we de formule voor het berekenen van de OLS in Excel toepassen op onze tabel.

Om dit te doen, voert u in de cel waarin het resultaat van de berekening met de kleinste-kwadratenmethode in Excel moet worden weergegeven, het teken "=" in en selecteert de functie "TREND". Vul in het geopende venster de juiste velden in en markeer:

  • bereik van bekende waarden voor Y (in deze zaak gegevens voor handelsomzet);
  • bereik x 1 , …x n , d.w.z. de grootte van winkelruimte;
  • zowel beroemd als onbekende waarden x, waarvoor u de grootte van de omzet moet weten (voor informatie over hun locatie op het werkblad, zie hieronder).

Daarnaast is er een logische variabele "Const" in de formule. Als u 1 invoert in het bijbehorende veld, betekent dit dat berekeningen moeten worden uitgevoerd, ervan uitgaande dat b \u003d 0.

Als u de voorspelling voor meer dan één x-waarde wilt weten, moet u na het invoeren van de formule niet op "Enter" drukken, maar moet u de combinatie "Shift" + "Control" + "Enter" typen ("Enter" ) op het toetsenbord.

Sommige eigenschappen

Regressie analyse zelfs toegankelijk voor dummies. Excel formule om de waarde van een reeks onbekende variabelen te voorspellen - "TREND" - kan zelfs worden gebruikt door degenen die nog nooit van de kleinste-kwadratenmethode hebben gehoord. Het is voldoende om enkele kenmerken van zijn werk te kennen. In het bijzonder:

  • Als we het bereik van bekende waarden van de variabele y in één rij of kolom rangschikken, dan is elke rij (kolom) met bekende waarden x wordt door het programma als een aparte variabele behandeld.
  • Als het bereik met bekende x niet is opgegeven in het venster "TREND", dan in het geval van het gebruik van de functie in Excel-programma zal het beschouwen als een array bestaande uit gehele getallen, waarvan het aantal overeenkomt met het bereik met de gegeven waarden van de variabele y.
  • Om een ​​reeks "voorspelde" waarden uit te voeren, moet de trenduitdrukking worden ingevoerd als een matrixformule.
  • Als er geen nieuwe x-waarden zijn opgegeven, beschouwt de TREND-functie ze als gelijk aan de bekende. Als ze niet zijn opgegeven, wordt array 1 als argument genomen; 2; 3; 4;…, wat in overeenstemming is met het bereik met reeds gegeven parameters y.
  • Het bereik met de nieuwe x-waarden moet bestaan ​​uit dezelfde of meer rijen of kolommen, als een bereik met gegeven y-waarden. Met andere woorden, het moet in verhouding staan ​​tot de onafhankelijke variabelen.
  • Een array met bekende x-waarden kan meerdere variabelen bevatten. Echter, als we zijn aan het praten slechts ongeveer één, dan is het vereist dat de bereiken met de gegeven waarden van x en y evenredig zijn. In het geval van meerdere variabelen is het noodzakelijk dat het bereik met de gegeven y-waarden in één kolom of één rij past.

FORECAST-functie

Het wordt geïmplementeerd met behulp van verschillende functies. Een ervan heet "VOORSPELLING". Het is vergelijkbaar met TREND, d.w.z. het geeft het resultaat van berekeningen met behulp van de kleinste-kwadratenmethode. Echter alleen voor één X, waarvan de waarde van Y onbekend is.

Nu kent u de Excel-formules voor dummies waarmee u de waarde van de toekomstige waarde van een indicator volgens een lineaire trend kunt voorspellen.

Het wordt veel gebruikt in de econometrie in de vorm van een duidelijke economische interpretatie van zijn parameters.

Lineaire regressie wordt gereduceerd tot het vinden van een vergelijking van de vorm

of

Typ vergelijking toestaan ​​voor waarden instellen parameter X hebben theoretische waarden van het effectieve kenmerk, waarbij de werkelijke waarden van de factor erin worden vervangen X.

Het bouwen van een lineaire regressie komt neer op het schatten van de parameters ervan − a en in. Schattingen van lineaire regressieparameters kunnen met verschillende methoden worden gevonden.

De klassieke benadering voor het schatten van lineaire regressieparameters is gebaseerd op: kleinste kwadraten(MNK).

Met LSM kan men dergelijke parameterschattingen verkrijgen a en in, waaronder de som van de gekwadrateerde afwijkingen van de werkelijke waarden van de resulterende eigenschap (j) van berekend (theoretisch) minimaal:

Om het minimum van een functie te vinden, is het noodzakelijk om de partiële afgeleiden te berekenen met betrekking tot elk van de parameters a en b en stel ze gelijk aan nul.

aanduiden via S, dan:

Als we de formule transformeren, krijgen we volgende systeem normale vergelijkingen voor parameterschatting: a en in:

Het stelsel van normaalvergelijkingen (3.5) oplossen volgens de methode opeenvolgende uitsluiting variabelen, of door de methode van determinanten, vinden we de vereiste schattingen van de parameters a en in.

Parameter in regressiecoëfficiënt genoemd. De waarde toont de gemiddelde verandering in het resultaat met een verandering in de factor met één eenheid.

De regressievergelijking wordt altijd aangevuld met een indicator van de dichtheid van de relatie. Bij gebruik van lineaire regressie fungeert de lineaire correlatiecoëfficiënt als een dergelijke indicator. Er zijn verschillende versies van de formule lineaire coëfficiënt correlaties. Sommigen van hen zijn hieronder opgesomd:

Zoals u weet, ligt de lineaire correlatiecoëfficiënt binnen de limieten: -1 1.

Om de kwaliteit van de selectie te beoordelen lineaire functie het kwadraat wordt berekend

Een lineaire correlatiecoëfficiënt genaamd bepaling coëfficiënt. De determinatiecoëfficiënt kenmerkt het aandeel van de variantie van het effectieve kenmerk ja, verklaard door de regressie totale variantie effectief teken:

Dienovereenkomstig kenmerkt de waarde 1 - het aandeel van de dispersie ja, veroorzaakt door de invloed van andere factoren waarmee in het model geen rekening is gehouden.

Vragen voor zelfbeheersing

1. De essentie van de methode van de kleinste kwadraten?

2. Hoeveel variabelen zorgen voor een paarsgewijze regressie?

3. Welke coëfficiënt bepaalt de dichtheid van de verbinding tussen de veranderingen?

4. Binnen welke grenzen wordt de determinatiecoëfficiënt bepaald?

5. Schatting van parameter b in correlatie-regressieanalyse?

1. Christopher Dougherty. Inleiding tot econometrie. - M.: INFRA - M, 2001 - 402 d.

2. SA Borodich. Econometrie. Minsk LLC "Nieuwe kennis" 2001.


3. RU Rakhmetov Korte les in de econometrie. zelfstudie. Almaty. 2004. -78s.

4. I.I. Eliseeva Econometrie. - M.: "Financiën en statistiek", 2002

5. Maandelijks informatie- en analytisch tijdschrift.

Niet-lineaire economische modellen. Niet-lineaire regressiemodellen. Variabele conversie.

niet-lineair economische modellen..

Variabele conversie.

elasticiteitscoëfficiënt.

als tussen economische verschijnselen zijn er niet-lineaire relaties, dan worden ze uitgedrukt met de corresponderende niet-lineaire functies: bijvoorbeeld een gelijkzijdige hyperbool , tweedegraads parabolen en etc.

Er zijn twee klassen van niet-lineaire regressies:

1. Regressies die niet-lineair zijn met betrekking tot de verklarende variabelen die in de analyse zijn opgenomen, maar lineair met betrekking tot de geschatte parameters, bijvoorbeeld:

Veeltermen verschillende graden - , ;

Gelijkzijdige hyperbool - ;

Semilogaritmische functie - .

2. Regressies die niet-lineair zijn in de geschatte parameters, bijvoorbeeld:

Stroom - ;

Aanwijzend -;

Exponentieel - .

Totale som van gekwadrateerde afwijkingen individuele waarden effectieve functie: Bij van de gemiddelde waarde wordt veroorzaakt door de invloed van vele factoren. We verdelen de hele reeks redenen voorwaardelijk in twee groepen: bestudeerde factor x en andere factoren.

Als de factor het resultaat niet beïnvloedt, is de regressielijn op de grafiek evenwijdig aan de as oh en

Dan is de volledige spreiding van het effectieve attribuut te wijten aan de invloed van andere factoren en totaalbedrag kwadratische afwijkingen zullen samenvallen met het residu. Als andere factoren het resultaat niet beïnvloeden, dan: je bent vastgebonden met X functioneel en resthoeveelheid vierkanten is nul. In dit geval is de som van gekwadrateerde afwijkingen verklaard door de regressie hetzelfde als de totale som van de kwadraten.

Omdat niet alle punten van het correlatieveld op de regressielijn liggen, vindt hun spreiding altijd plaats als gevolg van de invloed van de factor X, d.w.z. regressie Bij Aan X, en veroorzaakt door de werking van andere oorzaken (onverklaarde variatie). De geschiktheid van de regressielijn voor prognoses hangt af van welk onderdeel algemene variatie teken Bij verklaart de verklaarde variatie

Het is duidelijk dat als de som van de gekwadrateerde afwijkingen als gevolg van regressie groter is dan de resterende kwadratensom, de regressievergelijking statistisch significant is en de factor X heeft een grote invloed op het resultaat. j.

, dat wil zeggen met het aantal vrijheid van onafhankelijke variatie van het kenmerk. Het aantal vrijheidsgraden is gerelateerd aan het aantal eenheden van de populatie n en het aantal daaruit bepaalde constanten. Met betrekking tot het onderzochte probleem moet het aantal vrijheidsgraden aangeven hoeveel onafhankelijke afwijkingen van P

De beoordeling van de betekenis van de regressievergelijking als geheel wordt gegeven met behulp van F- Fisher's criterium. In dit geval wordt een nulhypothese naar voren gebracht dat de regressiecoëfficiënt gelijk is aan nul, d.w.z. b= 0, en dus de factor X heeft geen invloed op het resultaat j.

De directe berekening van het F-criterium wordt voorafgegaan door een variantieanalyse. Centraal daarin staat de uitbreiding van de totale som van gekwadrateerde afwijkingen van de variabele Bij van de gemiddelde waarde Bij in twee delen - "verklaard" en "onverklaard":

- totale som van gekwadrateerde afwijkingen;

- som van gekwadrateerde afwijkingen verklaard door regressie;

is de restsom van de kwadraten van de afwijking.

Elke som van gekwadrateerde afwijkingen is gerelateerd aan het aantal vrijheidsgraden , dat wil zeggen met het aantal vrijheid van onafhankelijke variatie van het kenmerk. Het aantal vrijheidsgraden is gerelateerd aan het aantal bevolkingseenheden n en met het aantal constanten dat daaruit wordt bepaald. Met betrekking tot het onderzochte probleem moet het aantal vrijheidsgraden aangeven hoeveel onafhankelijke afwijkingen van P mogelijk is vereist om een ​​gegeven kwadratensom te vormen.

Verspreiding per vrijheidsgraadD.

F-verhoudingen (F-criterium):

Als de nulhypothese waar is, dan de faculteit en resterende dispersie verschillen niet van elkaar. Voor H 0 is een weerlegging nodig zodat de factorvariantie meerdere malen groter is dan het residu. De Engelse statisticus Snedecor ontwikkelde tabellen met kritische waarden F-relaties op verschillende niveaus van materialiteit nulhypothese en verschillende nummers graden van vrijheid. Tabelwaarde F-criterium is de maximale waarde van de verhouding van varianties, die kan plaatsvinden in het geval van hun willekeurige divergentie voor gegeven niveau de kans op een nulhypothese. Berekende waarde F-relatie wordt als betrouwbaar erkend als o groter is dan de tabel in tabelvorm.

In dit geval wordt de nulhypothese over het ontbreken van een relatie van kenmerken verworpen en wordt een conclusie getrokken over de betekenis van deze relatie: F feit > F tabel H 0 wordt verworpen.

Als de waarde kleiner is dan de tabel F feit ‹, F tabel, dan is de kans op de nulhypothese hoger dan een bepaald niveau en kan deze niet worden verworpen zonder een serieus risico op het trekken van de verkeerde conclusie over de aanwezigheid van een verband. In dit geval wordt de regressievergelijking als statistisch niet significant beschouwd. Nee wijkt niet af.

Standaardfout van de regressiecoëfficiënt

Om de significantie van de regressiecoëfficiënt te beoordelen, wordt de waarde ervan vergeleken met de standaardfout, d.w.z. de werkelijke waarde wordt bepaald t-Studentencriterium: die vervolgens wordt vergeleken met tafelwaarde op een bepaald significantieniveau en het aantal vrijheidsgraden ( n- 2).

Parameter Standaardfout a:

De significantie van de lineaire correlatiecoëfficiënt wordt gecontroleerd op basis van de grootte van de fout correlatiecoëfficiënt r:

Totale variantie van een functie X:

Meerdere lineaire regressie

Model gebouw

Meervoudige regressie is een regressie van het resulterende kenmerk met twee en een groot aantal factoren, d.w.z. het weergavemodel

regressie kan geven goed resultaat bij het modelleren, als de invloed van andere factoren die het object van studie beïnvloeden, kan worden verwaarloosd. Het gedrag van individuele economische variabelen kan niet worden gecontroleerd, dat wil zeggen dat het niet mogelijk is om de gelijkheid te waarborgen van alle andere voorwaarden voor het beoordelen van de invloed van één onderzochte factor. In dit geval moet u proberen de invloed van andere factoren te identificeren door ze in het model te introduceren, d.w.z. een vergelijking maken meervoudige regressie: y = a+b 1 x 1 +b 2 +…+b p x p + .

Het belangrijkste doel van meervoudige regressie is het bouwen van een model met een groot aantal factoren, waarbij de invloed van elk afzonderlijk wordt bepaald, evenals hun cumulatieve impact op de gemodelleerde indicator. De specificatie van het model omvat twee vragen: de selectie van factoren en de keuze van het type regressievergelijking

Kleinste vierkante methode wordt gebruikt om de parameters van de regressievergelijking te schatten.
Aantal lijnen (initiële data)

Een van de methoden voor het bestuderen van stochastische relaties tussen kenmerken is regressieanalyse.
Regressieanalyse is de afleiding van een regressievergelijking, die wordt gebruikt om gemiddelde waarde een willekeurige variabele (kenmerk-resultaat), als de waarde van een andere (of andere) variabelen (kenmerk-factoren) bekend is. Het omvat de volgende stappen:

  1. keuze vorm van communicatie (type analytische vergelijking regressie);
  2. schatting van vergelijkingsparameters;
  3. evaluatie van de kwaliteit van de analytische regressievergelijking.
Meestal wordt een lineaire vorm gebruikt om de statistische relatie van kenmerken te beschrijven. aandacht voor lineaire verbinding wordt verklaard door een duidelijke economische interpretatie van zijn parameters, beperkt door de variatie van variabelen, en door het feit dat in de meeste gevallen niet-lineaire vormen van communicatie worden omgezet (door een logaritme te nemen of variabelen te veranderen) in een lineaire vorm voor uitvoering berekeningen.
In het geval van een lineaire paarrelatie zal de regressievergelijking de vorm aannemen: y i =a+b·x i +u i . Opties gegeven vergelijking a en b worden geschat op basis van de gegevens statistische observatie x en y. Het resultaat van een dergelijke beoordeling is de vergelijking: , waarbij , - schattingen van de parameters a en b , - de waarde van het effectieve kenmerk (variabele) verkregen door de regressievergelijking (berekende waarde).

De meest gebruikte parameterschatting is: kleinste kwadraten methode (LSM).
De kleinste-kwadratenmethode geeft de beste (consistente, efficiënte en zuivere) schattingen van de parameters van de regressievergelijking. Maar alleen als aan bepaalde aannames over de willekeurige term (u) en de onafhankelijke variabele (x) wordt voldaan (zie OLS-aannames).

Het probleem van het schatten van de parameters van een lineaire paar vergelijking kleinste kwadraten bestaat uit het volgende: om dergelijke schattingen van de parameters te verkrijgen, waarbij de som van de gekwadrateerde afwijkingen van de werkelijke waarden van het effectieve kenmerk - y i van de berekende waarden - minimaal is.
Formeel OLS-criterium kan als volgt worden geschreven: .

Classificatie van kleinste-kwadratenmethoden

  1. Kleinste vierkante methode.
  2. Maximale waarschijnlijkheidsmethode (voor een normaal klassiek lineair regressiemodel wordt de normaliteit van regressieresiduen gepostuleerd).
  3. De gegeneraliseerde kleinste-kwadratenmethode van GLSM wordt gebruikt in het geval van foutautocorrelatie en in het geval van heteroscedasticiteit.
  4. Gewogen kleinste kwadraten ( speciaal geval GMS met heteroscedastische residuen).

Illustreer de essentie de klassieke methode van de kleinste kwadraten grafisch. Om dit te doen, zullen we bouwen spreidingsplot volgens waarnemingen (xi , y i , i=1;n) in rechthoekig systeem coördinaten (zo'n spreidingsplot wordt een correlatieveld genoemd). Laten we proberen een rechte lijn te vinden die het dichtst bij de punten van het correlatieveld ligt. Volgens de kleinste-kwadratenmethode wordt de lijn zo gekozen dat de som van de gekwadrateerde verticale afstanden tussen de punten van het correlatieveld en deze lijn minimaal zou zijn.

Wiskundige notatie van dit probleem: .
De waarden van y i en x i =1...n zijn bij ons bekend, dit zijn waarnemingsgegevens. In de functie S zijn het constanten. De variabelen in deze functie zijn de vereiste schattingen van de parameters - , . Om het minimum van een functie van 2 variabelen te vinden, is het noodzakelijk om de partiële afgeleiden van deze functie te berekenen met betrekking tot elk van de parameters en ze gelijk te stellen aan nul, d.w.z. .
Als resultaat krijgen we een systeem van 2 normaal lineaire vergelijkingen:
Beslissen dit systeem, vinden we de vereiste parameterschattingen:

De juistheid van de berekening van de parameters van de regressievergelijking kan worden gecontroleerd door de sommen te vergelijken (enige discrepantie is mogelijk door afronding van de berekeningen).
Om parameterschattingen te berekenen, kunt u Tabel 1 maken.
Het teken van de regressiecoëfficiënt b geeft de richting van het verband aan (als b > 0 is het verband direct, als b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formeel is de waarde van de parameter a de gemiddelde waarde van y voor x gelijk aan nul. Als de tekenfactor geen nulwaarde heeft en ook niet kan hebben, heeft bovenstaande interpretatie van de parameter a geen zin.

Beoordeling van de dichtheid van de relatie tussen kenmerken wordt uitgevoerd met behulp van de coëfficiënt van lineaire paarcorrelatie - r x,y . Het kan worden berekend met behulp van de formule: . Bovendien kan de coëfficiënt van lineaire paarcorrelatie worden bepaald in termen van de regressiecoëfficiënt b: .
Het bereik van toelaatbare waarden van de lineaire paarcorrelatiecoëfficiënt is van –1 tot +1. Het teken van de correlatiecoëfficiënt geeft de richting van de relatie aan. Als r x, y >0, dan is de verbinding direct; als r x, y<0, то связь обратная.
Als deze coëfficiënt in modulus dicht bij de eenheid ligt, kan de relatie tussen de kenmerken worden geïnterpreteerd als een redelijk nauwe lineaire. Als de modulus gelijk is aan één ê r x , y ê =1, dan is de relatie tussen de kenmerken functioneel lineair. Als kenmerken x en y lineair onafhankelijk zijn, dan is r x,y dicht bij 0.
Tabel 1 kan ook worden gebruikt om r x,y te berekenen.

tafel 1

N waarnemingenx ikja ikx ik y ik
1 x 1y 1x 1 en 1
2 x2y2x 2 en 2
...
nx neeja neex n y n
Kolom Somxyx y
Gemeen
Om de kwaliteit van de verkregen regressievergelijking te beoordelen, wordt de theoretische determinatiecoëfficiënt berekend - R 2 yx:

,
waarbij d 2 de variantie y is die wordt verklaard door de regressievergelijking;
e 2 - residuaal (niet verklaard door de regressievergelijking) variantie y ;
s 2 y - totale (totale) variantie y .
De determinatiecoëfficiënt karakteriseert het aandeel variatie (spreiding) van het resulterende kenmerk y, verklaard door regressie (en bijgevolg de factor x), in de totale variatie (spreiding) y. De determinatiecoëfficiënt R 2 yx neemt waarden aan van 0 tot 1. Dienovereenkomstig kenmerkt de waarde 1-R 2 yx het aandeel van variantie y dat wordt veroorzaakt door de invloed van andere factoren waarmee geen rekening is gehouden in de model- en specificatiefouten.
Met gepaarde lineaire regressie R 2 yx = r 2 yx .

100 r eerste bestelling bonus

Kies het soort werk Afstudeerwerk Termpaper Samenvatting Masterscriptie Praktijkverslag Artikel Rapport Review Testwerk Monografie Probleemoplossing Businessplan Antwoorden op vragen Creatief werk Essay Tekenen Composities Vertaling Presentaties Typen Overig Verhogen van de uniciteit van de tekst Kandidaatsscriptie Laboratoriumwerk Hulp bij- lijn

Vraag naar een prijs

De methode van de kleinste kwadraten is een wiskundige (wiskundig-statistische) techniek die dient om tijdreeksen gelijk te maken, de vorm van een correlatie tussen willekeurige variabelen te identificeren, enz. Het bestaat in het feit dat de functie die dit fenomeen beschrijft, wordt benaderd door een eenvoudigere functie . Bovendien is de laatste zo gekozen dat de standaarddeviatie (zie Variantie) van de werkelijke niveaus van de functie op de waargenomen punten van de genivelleerde punten het kleinst is.

Volgens de beschikbare gegevens ( xi,yi) (i = 1, 2, ..., n) zo'n curve wordt geconstrueerd ja = a + bx, waarop het minimum van de som van de gekwadrateerde afwijkingen is bereikt

d.w.z. een functie wordt geminimaliseerd die afhankelijk is van twee parameters: a- segment op de y-as en b- de helling van de rechte lijn.

Vergelijkingen die noodzakelijke voorwaarden geven voor het minimaliseren van een functie S(a,b), worden genoemd normale vergelijkingen. Als benaderingsfuncties worden niet alleen lineair (uitlijning langs een rechte lijn), maar ook kwadratisch, parabolisch, exponentieel, enz. gebruikt. M.2, waarbij de som van de gekwadrateerde afstanden ( ja 1 – 1)2 + (ja 2 – 2)2 .... is de kleinste, en de resulterende rechte lijn geeft het beste de trend weer van de dynamische reeks waarnemingen voor een bepaalde indicator in de loop van de tijd.

Voor de zuiverheid van de OLS-schattingen is het noodzakelijk en voldoende om aan de belangrijkste voorwaarde van regressieanalyse te voldoen: de wiskundige verwachting van een willekeurige fout, afhankelijk van de factoren, moet gelijk zijn aan nul. Aan deze voorwaarde wordt met name voldaan als: 1. de wiskundige verwachting van willekeurige fouten gelijk is aan nul, en 2. factoren en toevallige fouten onafhankelijke toevalsvariabelen zijn. De eerste voorwaarde kan als altijd vervuld worden beschouwd voor modellen met een constante, aangezien de constante een niet-nul wiskundige verwachting van fouten aanneemt. De tweede voorwaarde - de voorwaarde van exogene factoren - is fundamenteel. Als niet aan deze eigenschap wordt voldaan, kunnen we aannemen dat bijna alle schattingen uiterst onbevredigend zullen zijn: ze zullen niet eens consistent zijn (dat wil zeggen, zelfs een zeer grote hoeveelheid gegevens maakt het in dit geval niet mogelijk om kwalitatieve schattingen te verkrijgen).

De meest voorkomende in de praktijk van statistische schatting van de parameters van regressievergelijkingen is de methode van de kleinste kwadraten. Deze methode is gebaseerd op een aantal aannames over de aard van de gegevens en de resultaten van de modelbouw. De belangrijkste zijn een duidelijke scheiding van de initiële variabelen in afhankelijke en onafhankelijke, de ongecorreleerdheid van de factoren die in de vergelijkingen zijn opgenomen, de lineariteit van het verband, de afwezigheid van autocorrelatie van de residuen, de gelijkheid van hun wiskundige verwachtingen met nul en constante verspreiding.

Een van de belangrijkste hypothesen van de LSM is de aanname dat de spreidingen van afwijkingen ei gelijk zijn, d.w.z. hun spreiding rond de gemiddelde (nul)waarde van de reeks zou een stabiele waarde moeten zijn. Deze eigenschap wordt homoscedasticiteit genoemd. In de praktijk zijn de varianties van afwijkingen vaak niet hetzelfde, dat wil zeggen dat er heteroscedasticiteit wordt waargenomen. Dit kan verschillende redenen hebben. Er kunnen bijvoorbeeld fouten in de originele gegevens zitten. Willekeurige onnauwkeurigheden in de broninformatie, zoals fouten in de volgorde van getallen, kunnen een aanzienlijke impact hebben op de resultaten. Vaak wordt een grotere spreiding van afwijkingen єi waargenomen bij grote waarden van de afhankelijke variabele (variabelen). Als de gegevens een significante fout bevatten, dan zal natuurlijk ook de afwijking van de berekende modelwaarde uit de foutieve gegevens groot zijn. Om van deze fout af te komen, moeten we de bijdrage van deze gegevens aan de berekeningsresultaten verminderen, er een lager gewicht voor instellen dan voor de rest. Dit idee is geïmplementeerd in gewogen kleinste kwadraten.