Intervallvariasjonsserier med like intervaller. Studenter og skoleelever - bistand til å studere

Ved behandling av store mengder informasjon, noe som er spesielt viktig når man driver moderne vitenskapelig utvikling, står forskeren overfor den alvorlige oppgaven med å gruppere kildedataene riktig. Hvis dataene er diskrete i naturen, oppstår det, som vi har sett, ingen problemer - du trenger bare å beregne frekvensen til hver funksjon. Hvis karakteristikken som studeres har kontinuerlig karakter (som er mer vanlig i praksis), så er det på ingen måte en triviell oppgave å velge det optimale antallet funksjonsgrupperingsintervaller.

For gruppering av kontinuerlige tilfeldige variabler, hele variasjonsområde egenskaper er delt inn i en rekke intervaller Til.

Gruppert intervall (kontinuerlig) variantserie kalles intervaller rangert etter verdien av attributtet (), der antallet observasjoner som faller inn i det r"te intervallet, eller relative frekvenser (), er indikert sammen med de tilsvarende frekvensene ():

Karakteristiske verdiintervaller
mi frekvens

Histogram Og kumulere (ogiva), allerede diskutert i detalj av oss, er et utmerket middel for datavisualisering, slik at du kan få en primær ide om datastrukturen. Slike grafer (fig. 1.15) er konstruert for kontinuerlige data på samme måte som for diskrete data, bare med tanke på det faktum at kontinuerlige data fullstendig fyller området for deres mulige verdier, og tar på seg eventuelle verdier.

Ris. 1.15.

Det er derfor kolonnene på histogrammet og kumuleringen må berøre hverandre og har ingen områder der attributtverdiene ikke faller innenfor alle mulige(dvs. histogrammet og kumulatene skal ikke ha "hull" langs abscisseaksen, som ikke inneholder verdiene til variabelen som studeres, som i fig. 1.16). Høyden på stolpen tilsvarer frekvensen – antall observasjoner som faller innenfor et gitt intervall, eller relativ frekvens – andelen observasjoner. Intervaller må ikke krysse hverandre og har vanligvis samme bredde.

Ris. 1.16.

Histogrammet og polygonet er tilnærminger av sannsynlighetstetthetskurven ( differensial funksjon) f(x) teoretisk fordeling, vurdert i løpet av sannsynlighetsteori. Derfor er deres konstruksjon så viktig i den primære statistiske behandlingen av kvantitative kontinuerlige data - etter deres utseende kan man bedømme den hypotetiske distribusjonsloven.

Cumulate – en kurve av akkumulerte frekvenser (frekvenser) av en intervallvariasjonsserie. Grafen til den kumulative fordelingsfunksjonen sammenlignes med kumuleringen F(x), også omtalt i sannsynlighetsteorikurset.

I utgangspunktet er begrepene histogram og kumulering assosiert spesifikt med kontinuerlige data og deres intervallvariasjonsserier, siden deres grafer er empiriske estimater av henholdsvis og fordelingsfunksjonen.

Konstruksjonen av en intervallvariasjonsserie begynner med å bestemme antall intervaller k. Og denne oppgaven er kanskje den vanskeligste, viktigste og mest kontroversielle i problemstillingen som studeres.

Antall intervaller bør ikke være for lite, da dette vil gjøre histogrammet for jevnt ( overglattet), mister alle funksjonene til variabiliteten til de originale dataene - i fig. 1.17 kan du se hvordan de samme dataene som grafene i fig. 1.15, brukt til å konstruere et histogram med et mindre antall intervaller (venstre graf).

Samtidig bør antallet intervaller ikke være for stort - ellers vil vi ikke være i stand til å estimere distribusjonstettheten til de studerte dataene langs den numeriske aksen: histogrammet vil bli underutjevnet (underutjevnet), med tomme intervaller, ujevne (se fig. 1.17, høyre graf).

Ris. 1.17.

Hvordan bestemme det mest foretrukne antall intervaller?

Tilbake i 1926 foreslo Herbert Sturges en formel for å beregne antall intervaller som det er nødvendig å dele det opprinnelige settet med verdier til egenskapen som studeres. Denne formelen har virkelig blitt ekstremt populær - de fleste statistiske lærebøker tilbyr den, og mange statistiske pakker bruker den som standard. Hvor berettiget dette er og i alle tilfeller er et svært alvorlig spørsmål.

Så, hva er Sturges-formelen basert på?

La oss vurdere binomial fordeling, hvis øvre grense inkluderer det siste tallet i den rangerte serien.

Vi bygger intervallserie(Tabell 2.3).

Intervallserie for distribusjon av firmaer og gjennomsnittlig antall ledere i en av regionene i Den russiske føderasjonen i første kvartal av rapporteringsåret

Konklusjon. Den største gruppen av bedrifter er gruppen med et gjennomsnittlig antall ledere på 25-30 personer, som inkluderer 8 bedrifter (27 %); Den minste gruppen med et gjennomsnittlig antall ledere på 40-45 personer inkluderer kun ett selskap (3 %).

Bruker de første dataene fra tabellen. 2.1, samt en intervallserie for fordeling av bedrifter etter antall ledere (tabell 2.3), nødvendig bygge en analytisk gruppering av forholdet mellom antall ledere og salgsvolumet til bedrifter og, basert på det, trekke en konklusjon om tilstedeværelsen (eller fraværet) av et forhold mellom disse egenskapene.

Løsning:

Analytisk gruppering er basert på faktorkarakteristikker. I vår oppgave er faktorkarakteristikken (x) antall ledere, og den resulterende karakteristikken (y) er salgsvolumet (tabell 2.4).

La oss bygge nå analytisk gruppering(Tabell 2.5).

Konklusjon. Basert på dataene fra den konstruerte analytiske grupperingen, kan vi si at med en økning i antall salgsledere, øker også det gjennomsnittlige salgsvolumet til selskapet i gruppen, noe som indikerer tilstedeværelsen av en direkte forbindelse mellom disse egenskapene.

Tabell 2.4

Hjelpetabell for å konstruere en analytisk gruppering

Antall ledere, personer,	Firmanummer	Salgsvolum, millioner rubler, y











		" = 59 f = 9,97








		I-™ 4 - Yu.22







		74 '25 1PY1 U4 = 7 = 10,61










			på = ’ =10,31 30

Tabell 2.5

Avhengighet av salgsvolum på antall bedriftsledere i en av regionene i Den russiske føderasjonen i første kvartal av rapporteringsåret

TEST SPØRSMÅL

1. Hva er essensen av statistisk observasjon?
2. Nevn stadiene i statistisk observasjon.
3. Hva er organisasjonsformer statistisk observasjon?
4. Nevn typene statistiske observasjoner.
5. Hva er et statistisk sammendrag?
6. Nevn typene statistiske rapporter.
7. Hva er statistisk gruppering?
8. Nevn typene statistiske grupperinger.
9. Hva er en distribusjonsserie?
10. Navngi de strukturelle elementene i distribusjonsraden.
11. Hva er prosedyren for å konstruere en distribusjonsserie?