Biografier Kjennetegn Analyse

Hvordan beregne gjennomsnitt i excel eksempel. Hvordan lage en gjennomsnittlig poengsum i excel? Standard beregningsmetode

Hvordan beregne gjennomsnittet av tall i Excel

Finn gjennomsnittet aritmetiske tall i Excel kan du bruke .

Syntaks GJENNOMSNITT

=GJENNOMSNITT(tall1;[tall2],...) - Russisk versjon

Argumenter GJENNOMSNITT

  • nummer1- det første tallet eller rekkevidden av tall, for beregning av det aritmetiske gjennomsnittet;
  • Nummer 2(Valgfritt) – andre tall eller rekkevidde med tall for å beregne det aritmetiske gjennomsnittet. Maksimumsbeløp funksjonsargumenter - 255.

For å beregne, gjør følgende:

  • Velg en hvilken som helst celle;
  • Skriv en formel i den =GJENNOMSNITT(
  • Velg celleområdet du vil gjøre en beregning for;
  • Trykk på "Enter"-tasten på tastaturet

Funksjonen vil beregne gjennomsnittsverdien i det angitte området blant de cellene som inneholder tall.

Hvordan finne gjennomsnittsverdien gitt tekst

Hvis det er tomme linjer eller tekst i dataområdet, behandler funksjonen dem som "null". Hvis dataene inneholder boolske uttrykk FALSE eller TRUE, så behandler funksjonen FALSE som "null" og SANN som "1".

Hvordan finne det aritmetiske gjennomsnittet etter betingelse

Funksjonen brukes til å beregne gjennomsnittet ved en betingelse eller et kriterium. La oss for eksempel si at vi har produktsalgsdata:

Vår oppgave er å beregne gjennomsnittlig salg av penner. For å gjøre dette, tar vi følgende trinn:

  • I en celle A13 skriv navnet på produktet "Penner";
  • I en celle B13 la oss skrive inn formelen:

=GJENNOMSNITT.HVIS(A2:A10;A13;B2:B10)

Celleområde " A2:A10” peker på listen over produkter der vi skal søke etter ordet “Penner”. Argument A13 dette er en lenke til en celle med tekst som vi skal søke etter blant hele produktlisten. Celleområde " B2:B10” er en serie med produktsalgsdata, blant hvilke funksjonen finner “Penner” og beregner gjennomsnittsverdien.


I de fleste tilfeller er dataene konsentrert rundt et sentralt punkt. For å beskrive ethvert datasett er det derfor nok å indikere gjennomsnittsverdien. La oss ta en titt på tre numeriske egenskaper, som brukes til å estimere gjennomsnittet av fordelingen: aritmetisk gjennomsnitt, median og modus.

Gjennomsnitt

Det aritmetiske gjennomsnittet (ofte bare referert til som gjennomsnittet) er det vanligste anslaget på gjennomsnittet av en fordeling. Det er resultatet av å dele summen av alle observerbare numeriske verdier for nummeret deres. For et utvalg av tall X 1, X 2, ..., Xn, prøvegjennomsnittet (angitt med symbolet ) er lik \u003d (X 1 + X 2 + ... + Xn) / n, eller

hvor er prøvegjennomsnittet, n- prøvestørrelse, XJegi-te element prøver.

Last ned notat i eller format, eksempler i format

Vurder beregningen av gjennomsnittet aritmetisk verdi fem års gjennomsnittlig årlig avkastning på 15 aksjefond med svært høy level risiko (fig. 1).

Ris. 1. Gjennomsnittlig årlig avkastning på 15 aksjefond med svært høy risiko

Prøvegjennomsnittet beregnes som følger:

Dette er en god avkastning, spesielt sammenlignet med 3-4 % avkastning som bank- eller kredittforeningsinnskytere mottok i samme tidsperiode. Sorterer du avkastningsverdiene er det lett å se at åtte fond har en avkastning over, og syv - under gjennomsnittet. Det aritmetiske gjennomsnittet fungerer som et balansepunkt, slik at lavinntektsfond balanserer ut høyinntektsfond. Alle elementer i utvalget er involvert i beregningen av gjennomsnittet. Ingen av de andre estimatorene av fordelingsmiddelet har denne egenskapen.

Når skal man beregne det aritmetiske gjennomsnittet. Siden det aritmetiske gjennomsnittet avhenger av alle elementene i prøven, påvirker tilstedeværelsen av ekstreme verdier resultatet betydelig. I slike situasjoner kan det aritmetiske gjennomsnittet forvrenge betydningen av de numeriske dataene. Derfor, når du beskriver et datasett som inneholder ekstreme verdier, er det nødvendig å angi medianen eller det aritmetiske gjennomsnittet og medianen. Hvis for eksempel avkastningen til RS Emerging Growth-fondet fjernes fra utvalget, synker utvalgets gjennomsnitt av avkastningen til de 14 fondene med nesten 1 % til 5,19 %.

Median

Medianen er den midterste verdien av en ordnet rekke tall. Hvis matrisen ikke inneholder gjentatte tall, vil halvparten av elementene være mindre enn og halvparten mer enn medianen. Hvis utvalget inneholder ekstreme verdier, er det bedre å bruke medianen i stedet for det aritmetiske gjennomsnittet for å estimere gjennomsnittet. For å beregne medianen til en prøve, må den først sorteres.

Denne formelen er tvetydig. Resultatet avhenger av om tallet er partall eller oddetall. n:

  • Hvis prøven inneholder et oddetall elementer, er medianen (n+1)/2-te element.
  • Hvis prøven inneholder et partall av elementer, ligger medianen mellom de to midterste elementene i prøven og er lik det aritmetiske gjennomsnittet beregnet over disse to elementene.

For å beregne medianen for et utvalg av 15 verdipapirfond med svært høy risiko, må vi først sortere rådataene (figur 2). Da vil medianen være motsatt tallet til det midterste elementet i prøven; i vårt eksempel nummer 8. Excel har en spesiell funksjon =MEDIAN() som også fungerer med uordnede matriser.

Ris. 2. Median 15 midler

Dermed er medianen 6,5. Det betyr at halvparten av fondene med svært høy risiko ikke overstiger 6,5, mens den andre halvparten gjør det. Merk at medianen på 6,5 er litt større enn medianen på 6,08.

Hvis vi fjerner lønnsomheten til RS Emerging Growth-fondet fra utvalget, vil medianen av de resterende 14 fondene synke til 6,2 %, det vil si ikke så signifikant som det aritmetiske gjennomsnittet (fig. 3).

Ris. 3. Median 14 midler

Mote

Begrepet ble først introdusert av Pearson i 1894. Mote er det tallet som forekommer oftest i prøven (det mest fasjonable). Mote beskriver godt, for eksempel, den typiske reaksjonen til sjåfører på et trafikksignal for å stoppe trafikken. Klassisk eksempel bruk av mote - valget av størrelsen på den produserte partien av sko eller fargen på tapetet. Hvis en fordeling har flere moduser, sies den å være multimodal eller multimodal (har to eller flere "topper"). Multimodaliteten av distribusjon gir viktig informasjon om arten av variabelen som studeres. For eksempel, i sosiologiske undersøkelser, hvis en variabel representerer en preferanse eller holdning til noe, kan multimodalitet bety at det er flere tydelig forskjellige meninger. Multimodalitet er også en indikator på at utvalget ikke er homogent og at observasjonene kan genereres av to eller flere "overlappende" fordelinger. I motsetning til det aritmetiske gjennomsnittet, påvirker ikke uteliggere modusen. For kontinuerlig distribuerte tilfeldige variabler, for eksempel gjennomsnittlig årlig avkastning til verdipapirfond, eksisterer modusen noen ganger ikke i det hele tatt (eller gir ikke mening). Siden disse indikatorene kan ta på seg en rekke verdier, er gjentakende verdier ekstremt sjeldne.

Kvartiler

Kvartiler er mål som er mest brukt for å evaluere fordelingen av data når man skal beskrive egenskapene til store numeriske utvalg. Mens medianen deler den ordnede matrisen i to (50 % av matriseelementene er mindre enn medianen og 50 % er større), deler kvartiler det ordnede datasettet i fire deler. Q 1, median og Q 3 verdier er henholdsvis 25., 50. og 75. persentil. Den første kvartilen Q 1 er et tall som deler prøven i to deler: 25 % av elementene er mindre, og 75 % er mer enn den første kvartil.

Den tredje kvartilen Q 3 er et tall som også deler utvalget i to deler: 75 % av elementene er mindre enn, og 25 % er mer enn den tredje kvartilen.

For å beregne kvartiler i versjoner av Excel før 2007, ble funksjonen =KVARTIL(matrise, del) brukt. Fra og med Excel 2010 gjelder to funksjoner:

  • =KVARTIL.PÅ(matrise, del)
  • =QUARTILE.EXC(matrise, del)

Disse to funksjonene gir litt ulike betydninger(Fig. 4). For eksempel, når man beregner kvartilene til et utvalg som inneholder data om gjennomsnittlig årlig avkastning for 15 verdipapirfond med svært høy risiko, Q 1 = 1,8 eller -0,7 for henholdsvis QUARTILE.INC og QUARTILE.EXC. Forresten, QUARTILE-funksjonen som ble brukt tidligere tilsvarer moderne funksjon KVARTIL PÅ For å beregne kvartiler i Excel ved å bruke formlene ovenfor, kan datamatrisen stå uordnet.

Ris. 4. Beregn kvartiler i Excel

La oss understreke igjen. Excel kan beregne kvartiler for univariate diskrete serier , som inneholder verdiene tilfeldig variabel. Beregningen av kvartiler for en frekvensbasert fordeling er gitt i avsnittet nedenfor.

geometrisk gjennomsnitt

I motsetning til det aritmetiske gjennomsnittet, måler det geometriske gjennomsnittet hvor mye en variabel har endret seg over tid. Det geometriske gjennomsnittet er roten n grad fra produktet n verdier (i Excel brukes funksjonen = CUGEOM):

G= (X 1 * X 2 * ... * X n) 1/n

En lignende parameter er gjennomsnittet geometrisk verdi avkastningen bestemmes av formelen:

G \u003d [(1 + R 1) * (1 + R 2) * ... * (1 + R n)] 1 / n - 1,

hvor R i- avkastning Jeg-te tidsperiode.

Anta for eksempel at den opprinnelige investeringen er $ 100 000. Ved slutten av det første året faller den til $ 50 000, og ved slutten av det andre året er den tilbake til den opprinnelige $ 100 000. Avkastningen på denne investeringen over en to- årsperiode er lik 0, siden den opprinnelige og endelige mengden av midler er lik hverandre. Imidlertid er det aritmetiske gjennomsnittet årlige satser fortjeneste er = (-0,5 + 1) / 2 = 0,25 eller 25 %, siden avkastningen i det første året R 1 = (50 000 - 100 000) / 100 000 = -0,5, og i det andre R 2 = (100 000 – 50 000) / 50 000 = 1. Samtidig er det geometriske gjennomsnittet av avkastningen i to år: G = [(1–0,5) * (1+1)] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Dermed gjenspeiler det geometriske gjennomsnittet mer nøyaktig endringen (mer presist, fraværet av endring) i investeringsvolumet over toårige enn det aritmetiske gjennomsnittet.

Interessante fakta. For det første vil det geometriske gjennomsnittet alltid være mindre enn det aritmetiske gjennomsnittet av de samme tallene. Bortsett fra tilfellet når alle de tatt tall er like med hverandre. For det andre, med tanke på egenskapene høyre trekant, kan du forstå hvorfor gjennomsnittet kalles geometrisk. Høyden på en rettvinklet trekant, senket til hypotenusen, er gjennomsnittlig proporsjonal mellom projeksjonene av bena på hypotenusen, og hvert ben er gjennomsnittlig proporsjonal mellom hypotenusen og dens projeksjon på hypotenusen (fig. 5). Dette gir en geometrisk måte å konstruere det geometriske gjennomsnittet av to (lengder) segmenter på: du må bygge en sirkel på summen av disse to segmentene som en diameter, deretter høyden, gjenopprettet fra punktet av deres forbindelse til skjæringspunktet med sirkel, vil gi den nødvendige verdien:

Ris. 5. Den geometriske karakteren til det geometriske middelet (figur fra Wikipedia)

Sekund viktig eiendom numeriske data - deres variasjon karakteriserer graden av spredning av dataene. To forskjellige prøver kan variere både i middelverdier og i variasjoner. Imidlertid, som vist i fig. 6 og 7 kan to prøver ha samme variasjon, men forskjellige middelverdier, eller samme gjennomsnitt og helt ulik variasjon. Dataene som tilsvarer polygon B i fig. 7 endres mye mindre enn dataene som polygon A ble bygget fra.

Ris. 6. To symmetriske klokkeformede fordelinger med samme spredning og forskjellige middelverdier

Ris. 7. To symmetriske klokkeformede fordelinger med samme middelverdier og forskjellig spredning

Det er fem estimater for datavariasjon:

  • span,
  • interkvartil område,
  • spredning,
  • standardavvik,
  • variasjonskoeffisienten.

omfang

Området er forskjellen mellom de største og minste elementene i prøven:

Sveip = XMax-XMin

Rekkevidden til et utvalg som inneholder gjennomsnittlig årlig avkastning for 15 verdipapirfond med svært høy risiko kan beregnes ved å bruke en ordnet matrise (se figur 4): område = 18,5 - (-6,1) = 24,6. Dette betyr at forskjellen mellom høyeste og laveste gjennomsnittlige årlige avkastning for fond med svært høy risiko er 24,6 %.

Området måler den totale spredningen av dataene. Selv om utvalgsområdet er et veldig enkelt estimat av den totale spredningen av dataene, er svakheten at den ikke tar hensyn til nøyaktig hvordan dataene er fordelt mellom minimums- og maksimumselementene. Denne effekten er godt sett i fig. 8 som illustrerer prøver med samme område. B-skalaen viser at hvis prøven inneholder minst én ekstremverdi, er prøveområdet et svært unøyaktig estimat av spredningen av dataene.

Ris. 8. Sammenligning av tre prøver med samme område; trekanten symboliserer støtten til balansen, og plasseringen tilsvarer gjennomsnittsverdien av prøven

Interkvartil rekkevidde

Interkvartilen, eller gjennomsnittsområdet, er forskjellen mellom den tredje og første kvartilen av utvalget:

Interkvartilområde \u003d Q 3 - Q 1

Denne verdien gjør det mulig å estimere spredningen av 50 % av elementene og ikke ta hensyn til påvirkningen av ekstreme elementer. Interkvartilområdet for et utvalg som inneholder data om gjennomsnittlig årlig avkastning til 15 verdipapirfond med svært høy risiko kan beregnes ved å bruke dataene i fig. 4 (for eksempel for funksjonen KVARTIL.EXC): Interkvartilområde = 9,8 - (-0,7) = 10,5. Intervallet mellom 9,8 og -0,7 omtales ofte som den midterste halvdelen.

Det skal bemerkes at Q 1- og Q 3-verdiene, og dermed det interkvartile området, ikke er avhengig av tilstedeværelsen av uteliggere, siden deres beregning ikke tar hensyn til noen verdi som ville være mindre enn Q 1 eller større enn Q 3 . Total kvantitative egenskaper, som medianen, første og tredje kvartil og interkvartilområdet, som ikke påvirkes av uteliggere, kalles robuste mål.

Mens rekkevidden og interkvartilområdet gir et estimat for henholdsvis den totale og gjennomsnittlige spredningen av utvalget, tar ingen av disse estimatene hensyn til nøyaktig hvordan dataene er fordelt. Varians og standardavvik fri fra denne mangelen. Disse indikatorene lar deg vurdere graden av fluktuasjon av dataene rundt gjennomsnittet. Prøveavvik er en tilnærming av det aritmetiske gjennomsnittet beregnet fra de kvadratiske forskjellene mellom hvert prøveelement og prøvegjennomsnittet. For et utvalg av X 1 , X 2 , ... X n er prøvevariansen (angitt med symbolet S 2 gitt av følgende formel:

generell sak Prøvevariansen er summen av kvadrerte forskjeller mellom prøveelementene og prøvegjennomsnittet, delt på en verdi lik prøvestørrelsen minus én:

hvor - aritmetisk gjennomsnitt, n- prøvestørrelse, X i - Jeg-te prøveelementet X. I Excel før versjon 2007 for beregning prøveavvik funksjonen =VAR() ble brukt, siden versjon 2010 er funksjonen =VAR.B() brukt.

Det mest praktiske og allment aksepterte estimatet av dataspredning er standard selektivt avvik . Denne indikatoren er merket med symbolet S og er lik kvadratrot fra utvalgsvariasjonen:

I Excel før versjon 2007 ble =STDEV()-funksjonen brukt for å beregne standardavviket, fra versjon 2010 brukes =STDEV.B()-funksjonen. For å beregne disse funksjonene kan datamatrisen være uordnet.

Verken prøveavviket eller prøvestandardavviket kan være negativt. Den eneste situasjonen der indikatorene S 2 og S kan være null, er hvis alle elementene i utvalget er like. Helt i dette utrolig sak rekkevidde og interkvartilområde er også null.

Numeriske data er iboende flyktige. Enhver variabel kan ta på seg et sett ulike verdier. For eksempel har forskjellige verdipapirfond ulik avkastning og tap. På grunn av variasjonen til numeriske data, er det svært viktig å studere ikke bare estimater av gjennomsnittet, som er summative av natur, men også estimater av variansen, som karakteriserer spredningen av dataene.

Variansen og standardavviket lar oss estimere spredningen av data rundt gjennomsnittet, med andre ord for å bestemme hvor mange elementer i utvalget som er mindre enn gjennomsnittet, og hvor mange som er større. Dispersjon har noen verdifulle matematiske egenskaper. Dens verdi er imidlertid kvadratet av en måleenhet - en kvadratprosent, en kvadrat dollar, en kvadrattomme osv. Derfor er et naturlig estimat av variansen standardavviket, som uttrykkes i de vanlige måleenhetene – prosent av inntekt, dollar eller tommer.

Standardavviket lar deg estimere mengden fluktuasjon av prøveelementene rundt middelverdien. I nesten alle situasjoner ligger flertallet av observerte verdier innenfor pluss eller minus ett standardavvik fra gjennomsnittet. Derfor, ved å kjenne det aritmetiske gjennomsnittet av prøveelementene og standard prøveavvik, er det mulig å bestemme intervallet som hoveddelen av dataene tilhører.

Standardavviket for avkastning på 15 fond med svært høy risiko er 6,6 (figur 9). Dette betyr at lønnsomheten til hoveddelen av midler ikke avviker fra gjennomsnittsverdien med mer enn 6,6 % (dvs. den svinger i området fra – S= 6,2 – 6,6 = –0,4 til + S= 12,8). Faktisk inneholder dette intervallet en femårig gjennomsnittlig årlig avkastning på 53,3 % (8 av 15) av midlene.

Ris. 9. Standardavvik

Legg merke til at i prosessen med å summere de kvadrerte forskjellene, får elementer som er lengre fra gjennomsnittet mer vekt enn elementer som er nærmere. Denne egenskapen er hovedårsaken til at det aritmetiske gjennomsnittet oftest brukes til å estimere gjennomsnittet av en fordeling.

Variasjonskoeffisienten

I motsetning til tidligere spredningsestimater, er variasjonskoeffisienten et relativt estimat. Det måles alltid i prosent, ikke i de opprinnelige dataenhetene. Variasjonskoeffisienten, angitt med symbolene CV, måler spredningen av dataene rundt gjennomsnittet. Variasjonskoeffisienten er lik standardavviket delt på det aritmetiske gjennomsnittet og multiplisert med 100 %:

hvor S- standard prøveavvik, - prøvegjennomsnitt.

Variasjonskoeffisienten lar deg sammenligne to prøver, hvis elementer er uttrykt i forskjellige måleenheter. For eksempel har lederen av en postleveringstjeneste til hensikt å oppgradere lastebilflåten. Når du laster pakker, er det to typer restriksjoner å vurdere: vekten (i pund) og volumet (i kubikkfot) av hver pakke. Anta at i en prøve på 200 poser er gjennomsnittsvekten 26,0 pund, standardavviket for vekten er 3,9 pund, gjennomsnittlig pakkevolum er 8,8 kubikkfot, og standardavviket for volumet er 2,2 kubikkfot. Hvordan sammenligne spredningen av vekt og volum av pakker?

Siden måleenhetene for vekt og volum er forskjellige fra hverandre, må lederen sammenligne den relative spredningen av disse verdiene. Vektvariasjonskoeffisienten er CV W = 3,9 / 26,0 * 100 % = 15 %, og volumvariasjonskoeffisienten CV V = 2,2 / 8,8 * 100 % = 25 %. Dermed er den relative spredningen av pakkevolumer mye større enn den relative spredningen av deres vekter.

Distribusjonsskjema

Den tredje viktige egenskapen til prøven er distribusjonsformen. Denne fordelingen kan være symmetrisk eller asymmetrisk. For å beskrive formen til en fordeling, er det nødvendig å beregne gjennomsnittet og medianen. Hvis disse to målene er like, sies variabelen å være symmetrisk fordelt. Hvis middelverdien til en variabel er større enn medianen, har fordelingen en positiv skjevhet (fig. 10). Hvis medianen er større enn gjennomsnittet, er fordelingen av variabelen negativt skjev. Positiv skjevhet oppstår når gjennomsnittet øker til uvanlig høye verdier. Negativ skjevhet oppstår når gjennomsnittet synker til uvanlig små verdier. En variabel er symmetrisk fordelt hvis den ikke antar noen ekstreme verdier i noen av retningene, slik at store og små verdier av variabelen opphever hverandre.

Ris. 10. Tre typer fordelinger

Dataene avbildet på A-skalaen har en negativ skjevhet. Denne figuren viser en lang hale og venstre skjevhet forårsaket av uvanlig små verdier. Disse ekstremt små verdiene flytter middelverdien til venstre, og den blir mindre enn medianen. Dataene vist på skala B er fordelt symmetrisk. Venstre og høyre halvdel av fordelingen er deres egne speilrefleksjoner. Store og små verdier balanserer hverandre, og gjennomsnittet og medianen er like. Dataene vist på skala B har en positiv skjevhet. Denne figuren viser en lang hale og skjevhet til høyre, forårsaket av tilstedeværelsen av uvanlig høye verdier. Disse for store verdiene forskyver gjennomsnittet til høyre, og det blir større enn medianen.

I Excel kan beskrivende statistikk hentes ved hjelp av tillegget Analysepakke. Gå gjennom menyen DataDataanalyse, velg linjen i vinduet som åpnes Beskrivende statistikk og klikk Ok. I vinduet Beskrivende statistikk sørg for å indikere inndataintervall(Fig. 11). Hvis du vil se beskrivende statistikk på samme ark som de originale dataene, velger du alternativknappen utgangsintervall og spesifiser cellen der du vil plassere den venstre øvre hjørne utdatastatistikk (i vårt eksempel $C$1). Hvis du ønsker å sende data til nytt løv eller inn ny bok bare velg riktig alternativknapp. Merk av i boksen ved siden av Endelig statistikk. Eventuelt kan du også velge Vanskelighetsgrad,k-te minste ogk-te største.

Ved innskudd Data i området til Analyse du ser ikke ikonet Dataanalyse, må du først installere tillegget Analysepakke(se for eksempel).

Ris. 11. Beskrivende statistikk over fem års gjennomsnittlig årlig avkastning for fond med svært høye risikonivåer, beregnet ved hjelp av tillegget Dataanalyse Excel-programmer

Excel beregner hele linjen statistikk diskutert ovenfor: gjennomsnitt, median, modus, standardavvik, varians, område ( intervall), minimum, maksimum og prøvestørrelse ( kryss av). I tillegg beregner Excel noen ny statistikk for oss: standardfeil, kurtosis og skjevhet. standard feil er lik standardavviket delt på kvadratroten av prøvestørrelsen. asymmetri karakteriserer avviket fra symmetrien til fordelingen og er en funksjon som avhenger av kuben av forskjeller mellom elementene i prøven og middelverdien. Kurtosis er et mål på den relative konsentrasjonen av data rundt gjennomsnittet versus halene av fordelingen, og avhenger av forskjellene mellom prøven og gjennomsnittet hevet til fjerde potens.

beregning beskrivende statistikk til befolkning

Gjennomsnittet, spredningen og formen til fordelingen diskutert ovenfor er prøvebaserte egenskaper. Imidlertid, hvis datasettet inneholder numeriske målinger av hele populasjonen, kan parametrene beregnes. Disse parameterne inkluderer gjennomsnitt, varians og standardavvik for populasjonen.

Forventet verdi er lik summen av alle verdier av den generelle befolkningen delt på volumet av den generelle befolkningen:

hvor µ - forventet verdi, XJeg- Jeg-th variabel observasjon X, N- volumet til den generelle befolkningen. I Excel for å beregne matematisk forventning samme funksjon brukes som for det aritmetiske gjennomsnittet: =AVERAGE().

Befolkningsvariasjon lik summen av kvadrerte forskjeller mellom elementene i den generelle befolkningen og mat. forventning delt på størrelsen på befolkningen:

hvor σ2 er variansen til den generelle befolkningen. Excel før versjon 2007 bruker =VAR()-funksjonen til å beregne populasjonsvariansen, og starter med versjon 2010 =VAR.G().

befolkningens standardavvik er lik kvadratroten av populasjonsvariansen:

Excel før versjon 2007 bruker =STDEV() for å beregne populasjonsstandardavviket, og starter med versjon 2010 =STDEV.Y(). Merk at formlene for populasjonsvarians og standardavvik er forskjellige fra formlene for utvalgsvarians og standardavvik. Ved beregning eksempelstatistikk S2 og S nevneren til brøken er n - 1, og ved beregning av parameterne σ2 og σ - volumet til den generelle befolkningen N.

tommelfingerregel

I de fleste situasjoner er en stor andel av observasjonene konsentrert rundt medianen, og danner en klynge. I datasett med positiv skjevhet er denne klyngen plassert til venstre (dvs. under) den matematiske forventningen, og i sett med negativ skjevhet er denne klyngen plassert til høyre (dvs. over) for den matematiske forventningen. Symmetriske data har samme gjennomsnitt og median, og observasjonene grupperer seg rundt gjennomsnittet og danner en klokkeformet fordeling. Hvis fordelingen ikke har en uttalt skjevhet, og dataene er konsentrert rundt et visst tyngdepunkt, kan en tommelfingerregel brukes for å estimere variabilitet, som sier: hvis dataene har en klokkeformet distribusjon, så er ca. 68 %. av observasjonene er mindre enn ett standardavvik fra den matematiske forventningen, Omtrent 95 % av observasjonene er innenfor to standardavvik fra forventet verdi, og 99,7 % av observasjonene er innenfor tre standardavvik fra forventet verdi.

Dermed hjelper standardavviket, som er et estimat av gjennomsnittlig svingning rundt den matematiske forventningen, til å forstå hvordan observasjonene er fordelt og å identifisere uteliggere. Det følger av tommelfingerregelen at for klokkeformede fordelinger er det bare én verdi av tjue som skiller seg fra den matematiske forventningen med mer enn to standardavvik. Derfor verdier utenfor intervallet µ ± 2σ, kan betraktes som uteliggere. I tillegg er det bare tre av 1000 observasjoner som skiller seg fra den matematiske forventningen med mer enn tre standardavvik. Dermed verdier utenfor intervallet µ ± 3σ er nesten alltid uteliggere. For distribusjoner som er svært skjeve eller ikke klokkeformede, kan tommelfingerregelen Biename-Chebyshev brukes.

For mer enn hundre år siden oppdaget matematikerne Bienamay og Chebyshev uavhengig nyttig eiendom standardavvik. De fant at for ethvert datasett, uavhengig av formen på distribusjonen, prosentandelen av observasjoner som ligger i en avstand som ikke overstiger k standardavvik fra matematisk forventning, ikke mindre (1 – 1/ 2)*100 %.

For eksempel hvis k= 2, Biename-Chebyshev-regelen sier at minst (1 - (1/2) 2) x 100% = 75% av observasjonene må ligge i intervallet µ ± 2σ. Denne regelen gjelder for alle k overstiger én. Biename-Chebyshev-regelen er veldig generell karakter og er gyldig for distribusjoner av alle slag. Det indikerer minimal mengde observasjoner, avstanden til den matematiske forventningen ikke overskrider angi verdi. Men hvis fordelingen er klokkeformet, estimerer tommelfingerregelen konsentrasjonen av data rundt gjennomsnittet mer nøyaktig.

Beregning av beskrivende statistikk for en frekvensbasert distribusjon

Hvis de originale dataene ikke er tilgjengelige, blir frekvensfordelingen den eneste informasjonskilden. I slike situasjoner kan du beregne de omtrentlige verdiene av kvantitative indikatorer for fordelingen, for eksempel aritmetisk gjennomsnitt, standardavvik, kvartiler.

Hvis prøvedataene presenteres som en frekvensfordeling, kan en omtrentlig verdi av det aritmetiske gjennomsnittet beregnes, forutsatt at alle verdier innenfor hver klasse er konsentrert i midten av klassen:

hvor - prøvegjennomsnitt, n- antall observasjoner, eller utvalgsstørrelse, Med- antall klasser i frekvensfordelingen, mj- midtpunkt j- klasse, fj- frekvens tilsvarende j- klasse.

For å beregne standardavviket fra frekvensfordelingen, antas det også at alle verdier innenfor hver klasse er konsentrert i midten av klassen.

For å forstå hvordan kvartilene til serien bestemmes basert på frekvenser, la oss vurdere beregningen av den nedre kvartilen basert på dataene for 2013 om fordelingen av den russiske befolkningen etter gjennomsnittlig kontantinntekt per innbygger (fig. 12).

Ris. 12. Andelen av befolkningen i Russland med pengeinntekt per innbygger i gjennomsnitt per måned, rubler

For å beregne den første kvartilen av intervallet variantserie du kan bruke formelen:

hvor Q1 er verdien av den første kvartilen, xQ1 er den nedre grensen for intervallet som inneholder den første kvartilen (intervallet bestemmes av den akkumulerte frekvensen, den første overstiger 25 %); i er verdien av intervallet; Σf er summen av frekvensene til hele prøven; sannsynligvis alltid lik 100%; SQ1–1 er den kumulative frekvensen til intervallet som går foran intervallet som inneholder den nedre kvartilen; fQ1 er frekvensen til intervallet som inneholder den nedre kvartilen. Formelen for den tredje kvartilen er forskjellig ved at du alle steder, i stedet for Q1, må bruke Q3, og erstatte ¾ i stedet for ¼.

I vårt eksempel (fig. 12) er den nedre kvartilen i området 7000,1 - 10 000, hvor den kumulative frekvensen er 26,4%. Den nedre grensen for dette intervallet er 7000 rubler, verdien av intervallet er 3000 rubler, den akkumulerte frekvensen til intervallet før intervallet som inneholder den nedre kvartilen er 13,4 %, frekvensen av intervallet som inneholder den nedre kvartilen er 13,0 %. Dermed: Q1 \u003d 7000 + 3000 * (¼ * 100 - 13,4) / 13 \u003d 9677 rubler.

Fallgruver knyttet til beskrivende statistikk

I dette notatet så vi på hvordan man beskriver et datasett ved hjelp av ulike statistikker som estimerer gjennomsnittet, spredningen og distribusjonen. Det neste trinnet er å analysere og tolke dataene. Så langt har vi studert de objektive egenskapene til data, og nå vender vi oss til deres subjektive tolkning. To feil ligger og venter på forskeren: et feilvalgt analyseemne og en feiltolkning av resultatene.

En analyse av resultatene til 15 aksjefond med svært høy risiko er ganske objektiv. Han førte til helt objektive konklusjoner: alle aksjefond har forskjellig avkastning, spredningen av fondsavkastningen varierer fra -6,1 til 18,5, og gjennomsnittlig avkastning er 6,08. Objektiviteten til dataanalysen er sikret det rette valget totale kvantitative indikatorer for distribusjon. Flere metoder for å estimere gjennomsnitt og spredning av data ble vurdert, og deres fordeler og ulemper ble indikert. Hvordan velge riktig statistikk som gir en objektiv og objektiv analyse? Hvis datafordelingen er litt skjev, bør medianen velges fremfor det aritmetiske gjennomsnittet? Hvilken indikator karakteriserer spredningen av data mer nøyaktig: standardavvik eller rekkevidde? Bør den positive skjevheten i fordelingen angis?

På den annen side er datatolkning en subjektiv prosess. Forskjellige folk komme til forskjellige konklusjoner ved å tolke de samme resultatene. Alle har sitt eget ståsted. Noen anser den totale gjennomsnittlige årlige avkastningen på 15 fond med svært høy risiko som god og er ganske fornøyd med inntektene som mottas. Andre kan mene at disse fondene har for lav avkastning. Dermed bør subjektivitet kompenseres av ærlighet, nøytralitet og klarhet i konklusjoner.

Etiske problemstillinger

Dataanalyse er uløselig knyttet til etiske problemstillinger. Man bør være kritisk til informasjonen som formidles av aviser, radio, TV og internett. Over tid vil du lære å være skeptisk ikke bare til resultatene, men også til forskningens mål, emne og objektivitet. Den berømte britiske politikeren Benjamin Disraeli sa det best: "Det finnes tre typer løgner: løgn, fordømte løgner og statistikk."

Som nevnt i notatet etiske problemstillinger oppstå ved valg av resultater som skal presenteres i rapporten. Både positive og negative resultater. I tillegg skal resultatene presenteres ærlig, nøytralt og objektivt ved rapport eller skriftlig rapport. Skille mellom dårlige og uærlige presentasjoner. For å gjøre dette er det nødvendig å bestemme hva intensjonene til høyttaleren var. Noen ganger utelater taleren viktig informasjon av uvitenhet, og noen ganger med vilje (for eksempel hvis han bruker det aritmetiske gjennomsnittet for å estimere gjennomsnittet av tydelig skjeve data for å oppnå ønsket resultat). Det er også uærlig å undertrykke resultater som ikke samsvarer med forskerens synspunkt.

Materiale fra boken Levin mfl. Statistikk for ledere benyttes. - M.: Williams, 2004. - s. 178–209

KVARTILE-funksjonen kan kombineres med flere tidlige versjoner utmerke

La oss anta at du må finne gjennomsnittlig antall dager for oppgaver som skal utføres av forskjellige ansatte. Eller vil du beregne et tidsintervall på 10 år gjennomsnittstemperatur på en bestemt dag. Beregne gjennomsnittsverdien av en serie tall på flere måter.

Gjennomsnittet er en funksjon av målet for sentral tendens, der senteret av en serie med tall i statistisk fordeling. Tre flertall felles kriterier sentrale tendenser skiller seg ut.

    Gjennomsnitt Det aritmetiske gjennomsnittet beregnes ved å legge til en rekke tall og deretter dele antallet av disse tallene. For eksempel har gjennomsnittet av 2, 3, 3, 5, 7 og 10 30 delt på 6, 5;

    Median Det midterste tallet i en tallserie. Halvparten av tallene har verdier som er større enn medianen, og halvparten av tallene har verdier som er mindre enn medianen. For eksempel er medianen av 2, 3, 3, 5, 7 og 10 4.

    Modus Det hyppigst forekommende tallet i en gruppe med tall. For eksempel modus 2, 3, 3, 5, 7 og 10 - 3.

Disse tre målene for den sentrale tendensen til den symmetriske fordelingen av en rekke tall er en og samme. I en asymmetrisk fordeling av en rekke tall kan de være forskjellige.

Beregn gjennomsnittsverdien av celler som ligger kontinuerlig i én rad eller én kolonne

Gjør følgende.

Beregning av gjennomsnittet av spredte celler

For å utføre denne oppgaven, bruk funksjonen GJENNOMSNITT. Kopier tabellen nedenfor til et blankt ark.

Beregning av vektet gjennomsnitt

SUMPRODUKT og beløp. vDette eksemplet beregner Gjennomsnittspris måleenheter betalt på tvers av tre kjøp, hvor hvert kjøp er for et ulikt antall måleenheter til ulike priser per enhet.

Kopier tabellen nedenfor til et blankt ark.

Beregning av gjennomsnittsverdien av tall, uten å ta hensyn null verdier

For å utføre denne oppgaven, bruk funksjonene GJENNOMSNITT og hvis. Kopier tabellen nedenfor og husk at i dette eksemplet, for å gjøre det lettere å forstå, kopier det til et blankt ark.

Aritmetisk gjennomsnitt i excel. Excel-regneark, er best egnet for alle beregninger. Etter å ha studert Excel, vil du kunne løse problemer innen kjemi, fysikk, matematikk, geometri, biologi, statistikk, økonomi og mange andre. Vi tenker ikke engang på hva et kraftig verktøy er på datamaskinene våre, noe som betyr at vi ikke bruker det til sitt fulle potensial. Mange foreldre tror at en datamaskin bare er et dyrt leketøy. Men til ingen nytte! Selvfølgelig, for at barnet virkelig skal studere det, må du selv lære å jobbe med det, og deretter lære barnet. Vel, dette er et annet emne, men i dag vil jeg snakke med deg om hvordan du finner det aritmetiske gjennomsnittet i Excel.

Hvordan finne det aritmetiske gjennomsnittet i Excel

Vi har allerede snakket om rask i Excel, og i dag skal vi snakke om det aritmetiske gjennomsnittet.

Velg en celle C12 og med hjelp Funksjonsveivisere skriv i den formelen for å beregne det aritmetiske gjennomsnittet. For å gjøre dette, på standardverktøylinjen, klikk på knappen - Sette inn en funksjon −f.eks (på bildet over er den røde pilen øverst). En dialogboks åpnes Funksjon Master .

  • Velg i feltet KategorierStatistisk ;
  • I felt Velg funksjon: GJENNOMSNITT ;
  • Klikk på knappen OK .

Følgende vindu åpnes Argumenter og funksjoner .

I felt Nummer1 du vil se oppføringen S2:S11- programmet selv bestemte celleområdet det er nødvendig for finn det aritmetiske gjennomsnittet.

Klikk på knappen OK og i cellen C12 det aritmetiske gjennomsnittet av poengsummene vises.

Det viser seg at å beregne det aritmetiske gjennomsnittet i excel slett ikke er vanskelig. Og jeg var alltid redd for formler. Eh, ikke på den tiden vi studerte.

Dette regnearkbehandler takle nesten alle beregninger. Den er ideell for regnskap. For beregninger er det spesielle verktøy - formler. De kan brukes på et område eller på individuelle celler. For å finne ut minimum eller maksimum antall i en gruppe celler, er det ikke nødvendig å lete etter dem selv. Det er bedre å bruke alternativene som er gitt for dette. Det vil også være nyttig å finne ut hvordan du beregner gjennomsnittsverdien i Excel.

Dette gjelder spesielt i tabeller med store datamengder. Hvis kolonnen inneholder for eksempel produktpriser kjøpesenter. Og du må finne ut hvilket produkt som er billigst. Hvis du søker etter det "manuelt", vil det ta mye tid. Men i Excel kan dette gjøres med bare noen få klikk. Verktøyet beregner også det aritmetiske gjennomsnittet. Tross alt er dette to enkle operasjoner: addisjon og divisjon.

Maksimum og minimum

Slik finner du maksimal verdi i excel:

  1. Plasser cellemarkøren hvor som helst.
  2. Gå til "Formler"-menyen.
  3. Klikk på Sett inn funksjon.
  4. Velg "MAX" fra listen. Eller skriv dette ordet i "Søk"-feltet og klikk "Finn".
  5. I Argument-vinduet skriver du inn adressene til området hvis maksimalverdi du vil vite. I Excel består cellenavn av en bokstav og et tall ("B1", "F15", "W34"). Og navnet på området er den første og siste cellen som er inkludert i den.
  6. I stedet for en adresse kan du skrive flere tall. Da vil systemet vise den største av dem.
  7. Klikk OK. Resultatet vil vises i cellen der markøren var.

Det neste trinnet er å spesifisere et verdiområde

Nå blir det lettere å finne ut hvordan du finner minimumsverdien i Excel. Algoritmen for handlinger er helt identisk. Bare velg "MIN" i stedet for "MAX".

Gjennomsnitt

Det aritmetiske gjennomsnittet beregnes som følger: legg sammen alle tallene fra settet og del på tallet deres. I Excel kan du regne ut summer, finne ut hvor mange celler som er på rad, og så videre. Men det er for komplisert og langt. Må bruke mye ulike funksjoner. Ha informasjon i bakhodet. Eller til og med skrive ned noe på et stykke papir. Men algoritmen kan forenkles.

Slik finner du gjennomsnittet i Excel:

  1. Flytt cellemarkøren til en hvilken som helst ledig plass tabeller.
  2. Gå til "Formler"-fanen.
  3. Klikk på "Sett inn funksjon".
  4. Velg AVERAGE.
  5. Hvis dette elementet ikke er på listen, åpner du det ved å bruke "Finn"-alternativet.
  6. I Number1-området skriver du inn adressen til området. Eller skriv flere tall i forskjellige felt "Nummer2", "Nummer3".
  7. Klikk OK. Den ønskede verdien vises i cellen.

Så du kan utføre beregninger ikke bare med posisjoner i tabellen, men også med vilkårlige sett. Excel spiller faktisk rollen som en avansert kalkulator.

andre metoder

Maksimum, minimum og gjennomsnitt kan finnes på andre måter.

  1. Finn funksjonslinjen merket "Fx". Det er over hovedarbeidsområdet på bordet.
  2. Plasser markøren i en hvilken som helst celle.
  3. Skriv inn et argument i "Fx"-feltet. Det starter med et likhetstegn. Deretter kommer formelen og adressen til området/cellen.
  4. Du bør få noe sånt som "=MAX(B8:B11)" (maksimum), "=MIN(F7:V11)" (minimum), "=GJENNOMSNITT(D14:W15)" (gjennomsnitt).
  5. Klikk på "haken" ved siden av funksjonsfeltet. Eller bare trykk Enter. Den ønskede verdien vises i den valgte cellen.
  6. Formelen kan kopieres direkte inn i selve cellen. Effekten vil være den samme.

Excel-verktøyet "Autofunksjoner" hjelper deg med å finne og beregne.

  1. Plasser markøren i cellen.
  2. Finn knappen hvis navn begynner med "Auto". Dette avhenger av standardalternativet valgt i Excel (AutoSum, AutoNumber, AutoOffset, AutoIndex).
  3. Klikk på den svarte pilen under den.
  4. Velg MIN (minimum), MAX (maksimum) eller AVERAGE (gjennomsnitt).
  5. Formelen vil vises i den merkede cellen. Klikk på en annen celle - den legges til funksjonen. "Dra" boksen rundt den for å dekke området. Eller Ctrl-klikk rutenettet for å velge ett element om gangen.
  6. Når du er ferdig, trykk Enter. Resultatet vil vises i en celle.

I Excel er det ganske enkelt å beregne gjennomsnittet. Du trenger ikke legge til og deretter dele opp mengden. Det er en egen funksjon for dette. Du kan også finne minimum og maksimum i et sett. Det er mye enklere enn å telle for hånd eller slå opp tall i et stort regneark. Derfor er Excel populært i mange aktivitetsområder der nøyaktighet kreves: forretning, revisjon, personalregistrering, finans, handel, matematikk, fysikk, astronomi, økonomi, vitenskap.