Biografier Kjennetegn Analyse

Statistiske fordelingsserier. Diskrete statistiske serier

Den enkleste måten å oppsummere statistisk materiale på er å konstruere serier. Resultatet av et statistisk studiesammendrag kan være distribusjonsserier.

Etter å ha bestemt grupperingskarakteristikken, antall grupper og grupperingsintervaller, presenteres sammendraget og grupperingsdataene i form av distribusjonsserier og presenteres i form av statistiske tabeller.

En distribusjonsserie er en av typene grupperinger.

Nær distribusjon i statistikk kalles en ordnet fordeling av befolkningsenheter i grupper i henhold til en hvilken som helst egenskap: kvalitativ eller kvantitativ.

  1. Typer distribusjonsserier

Avhengig av karakteristikken som ligger til grunn for dannelsen av distribusjonsserien, skilles attributive og variasjonelle distribusjonsserier:

    distribusjonsserier konstruert i henhold til kvalitative egenskaper kalles attributive;

    Variasjonsserier er distribusjonsserier konstruert i stigende eller synkende rekkefølge av verdiene til en kvantitativ egenskap.

Variasjonsserien til fordelingen består av to kolonner. Den første kolonnen inneholder kvantitative verdier av de varierende egenskapene, som kalles varianter og er utpekt. Diskret alternativ - uttrykt som et heltall. Intervallalternativet spenner fra og til. Avhengig av type, kan alternativer konstrueres diskrete eller intervall variasjonsserie. Den andre kolonnen inneholder antall spesifikke alternativer, uttrykt i form av frekvenser eller frekvenser:

    frekvenser er absolutte tall, som viser antall ganger en gitt attributtverdi forekommer totalt; summen av alle frekvenser må være lik antall enheter i hele befolkningen;

    frekvenser er frekvenser uttrykt som en prosentandel av totalen;

summen av alle frekvenser uttrykt i prosent må være lik 100 % i brøkdeler av én. Variasjonsserie karakterisert ved to elementer: variant (X) og frekvens (f). En variant er en egen verdi av en egenskap ved en individuell enhet eller gruppe av en populasjon. Et tall som viser hvor mange ganger en bestemt verdi av en egenskap forekommer kalles hyppighet.

Hvis frekvens er uttrykt som et relativt tall, kalles det frekvens.

    intervall, når grensene "fra" og "til" er definert, kan intervallfordelingsserier representeres grafisk i form av et histogram;

    diskret når karakteristikken som studeres er preget av et visst antall.

  1. Grafisk fremstilling av distribusjonsserier

Distribusjonsseriene presenteres visuelt ved hjelp av grafiske bilder.

Distribusjonsseriene er avbildet som:

    søppelfylling;

    histogrammer;

    kumulerer;

Ved bygging prøveplass på den horisontale aksen (abscisse-aksen) er verdiene til den varierende karakteristikken plottet, og på vertikal akse(y-akse) - frekvenser eller frekvenser.

Å bygge histogrammer Verdiene for grensene til intervallene er indikert langs abscisseaksen og rektangler er konstruert på grunnlag av disse, hvis høyde er proporsjonal med frekvensene (eller frekvensene).

Fordelingen av en karakteristikk i en variasjonsserie over akkumulerte frekvenser (frekvenser) er avbildet ved hjelp av en kumulering.

Akkumulerer eller en kumulativ kurve, i motsetning til en polygon, er konstruert fra akkumulerte frekvenser eller frekvenser. I dette tilfellet plasseres verdiene til karakteristikken på abscisseaksen, og akkumulerte frekvenser eller frekvenser plasseres på ordinataksen.

Ogiva er konstruert på samme måte som kumuleringen med den eneste forskjellen at de akkumulerte frekvensene er plassert på abscisseaksen, og de karakteristiske verdiene er plassert på ordinataksen.

En type kumulat er en konsentrasjonskurve eller Lorentz-plott. For å konstruere en konsentrasjonskurve plottes en skala i prosenter fra 0 til 100 på begge aksene til det rektangulære koordinatsystemet. Samtidig er de akkumulerte frekvensene indikert på abscisseaksen, og de akkumulerte verdiene til andelen. (i prosent) etter volum av karakteristikken er angitt på ordinataksen.

Emne 9. Distribusjonsserie

Statistiske fordelingsserier- dette er den primære egenskapen til en statistisk massepopulasjon, en ordnet dekomponering av enheter av befolkningen som studeres i grupper i henhold til grupperingsegenskaper. Enhver statistisk distribusjonsserie består av to elementer:

1) individuelle verdier av de varierende egenskapene ( alternativer );

2) verdier som viser hvor mange ganger et gitt alternativ gjentas ( frekvenser ).

Note. Frekvenser uttrykt i brøkdeler av en enhet eller som en prosentandel av totalen kalles frekvenser ; dette er antall distribusjonsserier uttrykt summen av frekvenser.

Hvis en kvalitativ karakteristikk legges til grunn for grupperingen, kalles en slik distribusjonsserie attributive(fordeling etter type arbeid, etter kjønn, etter yrke, etter religion, nasjonalitet osv.). Dersom distribusjonsserien er konstruert iht kvantitativ karakteristikk, da heter en slik serie variasjon. Å konstruere en variasjonsserie betyr å organisere den kvantitative fordelingen av befolkningsenheter etter karakteristiske verdier, og deretter telle antall befolkningsenheter med disse verdiene (bygg en gruppetabell).

Marker tre former for variasjonsserier:

1) rangert serie- dette er fordelingen av individuelle enheter av befolkningen i stigende eller synkende rekkefølge etter karakteristikken som studeres; rangering lar deg enkelt dele opp kvantitative data i grupper, umiddelbart oppdage de minste og høyeste verdi karakteristisk, fremhev verdiene som oftest gjentas; andre former for variasjonsserier - gruppebord, satt sammen i henhold til arten av variasjon i verdiene til karakteristikken som studeres;

2) diskrete serier- dette er en variantserie, hvis konstruksjon er basert på egenskaper med diskontinuerlige endringer, mellom hvilke det ikke er noen mellomverdier (diskrete egenskaper - tariffkategori, antall barn i familien, antall ansatte i bedriften, etc. .); Disse skiltene kan bare tas endelig nummer visse verdier;

Diskret serie representerer gruppebord, som består av to kolonner: i den første kolonnen er den spesifikke verdien av attributtet angitt, og i den andre - antall enheter av befolkningen med en viss verdi skilt;

3) hvis egenskapen har en kontinuerlig endring (inntektsbeløp, tjenestetid, kostnad for anleggsmidler til foretaket, etc., som innenfor visse grenser kan ta på seg alle verdier), er det for denne egenskapen nødvendig å bygge intervallserie (med like eller ulikt mellomrom).

Gruppebord her har også to kolonner. Den første indikerer verdien av attributtet i intervallet "fra - til" (alternativer), den andre indikerer antall enheter inkludert i intervallet (frekvens). Svært ofte suppleres tabellen med en kolonne der de akkumulerte frekvensene S beregnes, som viser hvor mange enheter av befolkningen som har en karakteristisk verdi som ikke er større enn gitt verdi. Frekvenser av serie f kan erstattes med detaljer w, uttrykt i relative tall (andeler eller prosenter). De representerer forholdet mellom frekvensene for hvert intervall og deres totalt beløp (9.1):



(9.1)

Når man konstruerer en variantserie med intervallverdier, først og fremst er det nødvendig å etablere verdien av intervallet i, som er definert som forholdet mellom variasjonsområdet R og antall grupper n (9,2):

hvor R = x maks - x min; n = 1 + 3,322 logN( Sturgess formel); N- totalt antall enheter av befolkningen.

Intervallvariasjonsserier kan også konstrueres for egenskaper med diskret variasjon. Ofte i en statistisk studie er det upassende å angi en separat verdi av en diskret attributt, fordi dette har en tendens til å gjøre det vanskelig å vurdere variasjon i en egenskap. Derfor blir mulige diskrete verdier av attributtet fordelt i grupper og de tilsvarende frekvensene (opplysninger) beregnes. Når du konstruerer en intervallserie basert på et diskret attributt, gjentar ikke grensene for tilstøtende intervaller hverandre: det neste intervallet begynner med det neste i rekkefølge (etter den øvre verdien av det forrige intervallet) diskret verdi skilt.

Når man sammenligner frekvensene til en serie med ulikt intervall, beregnes distribusjonstettheten for å karakterisere deres fylde. Gjennomsnittlig tetthet i intervallet er kvotienten av frekvens og partikularitet delt på intervallverdien. I det første tilfellet er tettheten absolutt, i det andre - relativ. Gjennomsnittlig tetthet viser hvor mange enheter eller prosentandeler av disse er per enhet av målealternativer. Frekvens, spesifisitet, tetthet og akkumulert frekvens er forskjellige funksjoner av størrelsesalternativer.

Pågår analyse statistiske data , representert ved distribusjonsserier, i tillegg til kunnskap om arten av fordelingen (eller populasjonens struktur), kan ulike statistiske indikatorer beregnes ( numeriske egenskaper), som i en generalisert form gjenspeiler fordelingstrekkene til egenskapene som studeres. Disse egenskapene (indikatorene) kan deles inn i 3 hovedgrupper

1) distribusjonssenteregenskaper(gjennomsnitt, modus, median);

2) egenskaper ved graden av variasjon (variasjonsområde, gjennomsnittlig lineært avvik, spredning, gjennomsnitt standardavvik, variasjonskoeffisient);

3) egenskaper ved distribusjonsformen (typen).(indikatorer på kurtose og asymmetri, rangkarakteristikker, distribusjonskurver).

Den mest pålitelige måten å identifisere et distribusjonsmønster på er som følger:
1) øke antall observerte tilfeller (i samsvar med loven store antall, i slike rader tilfeldige avvik fra generelt mønsterindividuelle verdier vil kansellere hverandre);

2) først del befolkningen inn i det maksimalt mulige antallet grupper, deretter, gradvis redusere antall grupper, optimalisere grupperingen fra synspunktet om å identifisere distribusjonsmønstre.

Ved implementering av denne tilnærmingen vil mønsteret som er karakteristisk for denne fordelingen vises mer og mer tydelig, og brutt linje, som representerer polygonet, vil nærme seg en jevn linje og bør i grensen bli til en buet linje.

Slipp ut befolkning en prøve trekkes ut, og X 1 observert n 1 gang, X 2 - n 2 ganger x k - p til ganger og er prøvestørrelsen. Observerte verdier X 1 kalles varianter, og sekvensen av varianter er skrevet i stigende rekkefølge - variantserier .

Antallet observasjonsvarianter kalles frekvens, og forholdet til utvalgsstørrelsen kalles relativ frekvens.

Definisjon. Statistisk (empirisk) lov om utvalgsfordeling, eller bare statistisk fordeling av utvalget navngi sekvensen av alternativer og deres tilsvarende frekvenser n i eller relative frekvenser.

Statistisk fordeling Det er praktisk å presentere prøver i form av en tabell over frekvensfordelinger, kalt statistisk diskrete serier distribusjoner:

(summen av alle relative frekvenser er lik én).

Eksempel 1. Ved måling i homogene grupper av forsøkspersoner ble følgende prøver oppnådd: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72,74 (puls). Basert på disse resultatene, kompiler en statistisk serie av frekvensfordelinger og relative frekvenser.

Løsning. 1) Statistiske serier av frekvensfordeling:

Kontroll: 0,1 + 0,2 + 0,4 + 0,1 + 0,2 = 1.

Frekvens polygon kalt en stiplet linje, segmenter som forbinder punkter For å konstruere en frekvenspolygon, er alternativer lagt ut på abscisseaksen X 2, og på ordinaten - de tilsvarende frekvensene p i. Punktene er forbundet med segmenter og en frekvenspolygon oppnås.

Polygon med relative frekvenser kalt en brutt linje, segmenter som forbinder punkter. For å konstruere en polygon med relative frekvenser, plottes alternativer på abscisseaksen X i, og på ordinataksen de tilsvarende frekvensene w jeg. Punktene er forbundet med segmenter og en polygon med relative frekvenser oppnås.

Eksempel 2. Konstruer en frekvenspolygon og en relativ frekvenspolygon basert på dataene i eksempel 1.

Løsning: Ved å bruke den diskrete statistiske distribusjonsserien kompilert i eksempel 1, vil vi konstruere en frekvenspolygon og en relativ frekvenspolygon:


2. Statistisk intervallfordelingsserie. Histogram.

En statistisk diskret serie (eller empirisk distribusjonsfunksjon) brukes vanligvis når flott venn fra hverandre er det ikke for mange alternativer i utvalget, eller når diskrethet av en eller annen grunn er vesentlig for forskeren. Hvis karakteristikken til den generelle befolkningen X som interesserer oss distribueres kontinuerlig eller diskretiteten er upraktisk (eller umulig) å ta hensyn til, så grupperes alternativene i intervaller.


Den statistiske fordelingen kan også spesifiseres som en sekvens av intervaller og frekvensene som tilsvarer dem (summen av frekvenser som faller innenfor dette intervallet tas som frekvensen som tilsvarer intervallet).

1. R(spenn) = X maks -X ​​min

2. k- antall grupper

3. (Sturges formel)

4. a = x min, b = x maks

Det er praktisk å presentere den resulterende grupperingen i form av en frekvenstabell, som kalles statistisk intervallfordelingsserie:

Intervaller fraksjoner ...
Frekvenser ...

En analog tabell kan dannes ved å erstatte frekvenser n i relative frekvenser.

Det viktigste stadiet i studiet av sosioøkonomiske fenomener og prosesser er systematisering av primærdata og på dette grunnlag oppnå en oppsummerende karakteristikk av hele objektet ved bruk av generelle indikatorer, som oppnås ved å oppsummere og gruppere primært statistisk materiale.

Statistisk oppsummering - er et sett med sekvensielle operasjoner for å generalisere spesifikke isolerte fakta, danner et sett, for å identifisere typiske trekk og mønstre som er iboende i fenomenet som studeres som helhet. Å gjennomføre et statistisk sammendrag inkluderer følgende trinn :

  • utvalg av grupperingsegenskaper;
  • bestemme rekkefølgen av gruppedannelse;
  • systemutvikling statistiske indikatorerå karakterisere grupper og objektet som helhet;
  • utvikling av statistiske tabelloppsett for å presentere oppsummeringsresultater.

Statistisk gruppering kalles inndelingen av enheter av befolkningen som studeres inn i homogene grupper i henhold til visse egenskaper som er viktige for dem. Grupperinger er det viktigste statistisk metode generalisering av statistiske data, grunnlaget for korrekt beregning av statistiske indikatorer.

Skjelne følgende typer grupperinger: typologisk, strukturell, analytisk. Alle disse grupperingene er forent ved at enhetene til objektet er delt inn i grupper i henhold til en eller annen egenskap.

Grupperingsfunksjon er en egenskap som enhetene i en populasjon er delt inn i separate grupper. Fra det riktige valget gruppering karakteristikk avhenger av konklusjonene. Som grunnlag for gruppering er det nødvendig å bruke betydelige, teoretisk baserte egenskaper (kvantitative eller kvalitative).

Kvantitative egenskaper ved gruppering ha et numerisk uttrykk (handelsvolum, personens alder, familieinntekt osv.), og kvalitative tegn på gruppering gjenspeiler tilstanden til en befolkningsenhet (kjønn, sivilstand, bransjetilknytning til foretaket, dets eierform osv.).

Etter at grunnlaget for grupperingen er fastsatt, må spørsmålet om antall grupper som befolkningen under utredning skal deles inn i, avgjøres.

Antall grupper avhenger av målene for studien og typen indikator som ligger til grunn for grupperingen, populasjonens volum og graden av variasjon av karakteristikken. For eksempel, gruppering av foretak etter type eierskap tar hensyn til kommunal, føderal og føderal fageiendom. Hvis grupperingen utføres på kvantitativ basis, er det nødvendig å reversere spesiell oppmerksomhet

på antall enheter av objektet som studeres og graden av variabilitet av grupperingskarakteristikken. Når antall grupper er bestemt, må grupperingsintervallene bestemmes. Intervall

- dette er verdiene til en varierende egenskap som ligger innenfor visse grenser. Hvert intervall har sin egen verdi, øvre og nedre grenser, eller minst én av dem. Nedre grense for intervallet kalles den minste verdien av karakteristikken i intervallet, og øvre grense

- den høyeste verdien av karakteristikken i intervallet. Verdien av intervallet er differansen mellom øvre og nedre grense. Grupperingsintervaller, avhengig av størrelsen, er: like og ulikt. Hvis variasjonen av en karakteristikk manifesterer seg innenfor relativt trange grenser og fordelingen er ensartet, så bygges en gruppe med like intervaller. Størrelse like intervall :

bestemt av følgende formel hvor Xmax, Xmin - maksimum og minimumsverdi

egenskaper i aggregatet; n - antall grupper.

Den enkleste grupperingen, der hver utvalgt gruppe er preget av én indikator, representerer en distribusjonsserie. Statistiske fordelingsserier

- dette er en ordnet fordeling av befolkningsenheter i grupper i henhold til en bestemt egenskap. Avhengig av karakteristikken som ligger til grunn for dannelsen av distribusjonsserien, skilles attributive og variasjonelle distribusjonsserier. Attributiv kalles distribusjonsserier konstruert iht kvalitative egenskaper , det vil si tegn som ikke har(fordeling etter type arbeidskraft, etter kjønn, etter yrke osv.). Attributive distribusjonsserier karakteriserer sammensetningen av befolkningen i henhold til visse vesentlige egenskaper. Tatt over flere perioder gjør disse dataene det mulig å studere endringer i struktur.

Variasjonsserie kalles distribusjonsserier konstruert på kvantitativ basis. Enhver variasjonsserie består av to elementer: alternativer og frekvenser. Alternativer kalles individuelle verdier egenskaper som den tar i variasjonsserien, det vil si den spesifikke verdien av den varierende egenskapen.

Frekvenser antall individuelle varianter eller hver gruppe av en variasjonsserie kalles, det vil si at dette er tall som viser hvor ofte enkelte varianter forekommer i distribusjonsserien. Summen av alle frekvenser bestemmer størrelsen på hele befolkningen, dens volum. Frekvenser kalles frekvenser uttrykt i brøkdeler av en enhet eller som en prosentandel av totalen. Følgelig er summen av frekvenser lik 1 eller 100%.

Avhengig av arten av variasjonen til en karakteristikk, skilles tre former for variasjonsserier ut: rangerte serier, diskrete serier og intervallserier.

Rangerte variantserier - dette er fordelingen av individuelle enheter av befolkningen i stigende eller synkende rekkefølge etter karakteristikken som studeres. Rangering lar deg enkelt dele opp kvantitative data i grupper, umiddelbart oppdage de minste og største verdiene av en karakteristikk og fremheve verdiene som oftest gjentas.

Diskrete variasjonsserier karakteriserer fordelingen av populasjonsenheter i henhold til en diskret attributt som kun tar heltallsverdier. For eksempel tariffkategori, antall barn i familien, antall ansatte i bedriften, etc.

Hvis en egenskap har en kontinuerlig endring, som innenfor visse grenser kan ta alle verdier ("fra - til"), så for denne egenskapen er det nødvendig å bygge intervallvariasjonsserier . For eksempel inntektsbeløpet, tjenestetiden, kostnadene for anleggsmidler til foretaket, etc.

Eksempler på å løse problemer om emnet "Statistisk sammendrag og gruppering"

Oppgave 1 . Det er informasjon om antall bøker studentene har mottatt gjennom abonnement det siste studieåret.

Konstruer rangerte og diskrete variasjonsdistribusjonsserier, angir elementene i serien.

Løsning

Dette settet representerer mange alternativer for antall bøker elevene mottar. La oss telle antall slike alternativer og ordne dem i form av variasjonsrangerte og variasjonelle diskrete serier distribusjoner.

Oppgave 2 . Det er data om kostnadene for anleggsmidler for 50 bedrifter, tusen rubler.

Konstruer en distribusjonsserie som fremhever 5 grupper av foretak (med like intervaller).

Løsning

For å løse velger vi den største og minste verdi verdien av anleggsmidler til foretak.

Disse er 30,0 og 10,2 tusen rubler.

La oss finne størrelsen på intervallet: h = (30,0-10,2):5= 3,96 tusen rubler. Deretter vil den første gruppen inkludere foretak hvis anleggsmidler er fra 10,2 tusen rubler. opptil 10,2+3,96=14,16 tusen rubler. Det vil være 9 slike foretak Den andre gruppen vil inkludere foretak hvis anleggsmidler beløper seg til 14,16 tusen rubler. opptil 14,16+3,96=18,12 tusen rubler. Det vil være 16 slike virksomheter la oss finne nummeret

foretak inkludert i tredje, fjerde og femte gruppe.

Vi plasserer den resulterende distribusjonsserien i tabellen. Oppgave 3

. Følgende data ble innhentet for en rekke lettindustribedrifter:

Grupper foretakene etter antall arbeidere, og danner 6 grupper med like mellomrom.
Regn ut for hver gruppe:
1. antall foretak
2. antall arbeidere
3. volum av produkter produsert per år
6. 4. gjennomsnittlig faktisk produksjon per arbeider 5. volum av anleggsmidler
middels størrelse

anleggsmidler til ett foretak

Løsning

7. gjennomsnittlig verdi av produkter produsert av ett foretak

Presenter beregningsresultatene i tabeller. Trekk konklusjoner.

For å løse, vil vi velge de største og minste verdiene av gjennomsnittlig antall arbeidere i bedriften. Disse er 43 og 256.

La oss finne størrelsen på intervallet: h = (256-43):6 = 35,5

Da vil den første gruppen inkludere foretak med gjennomsnittlig antall arbeidere fra 43 til 43 + 35,5 = 78,5 personer. Det vil være 5 slike foretak. Den andre gruppen vil omfatte foretak med gjennomsnittlig antall ansatte fra 78,5 til 78,5+35,5=114 personer. Det vil være 12 slike foretak Tilsvarende vil vi finne antall foretak som inngår i tredje, fjerde, femte og sjette gruppe.

Siden den andre gruppen er den største, er volumet av produkter produsert per år av foretak i denne gruppen og volumet av anleggsmidler betydelig høyere enn andre. Samtidig er ikke den gjennomsnittlige faktiske produksjonen per arbeider ved bedrifter i denne gruppen størst. Bedrifter i den fjerde gruppen leder her. Denne gruppen står også for et ganske stort volum av anleggsmidler.

Avslutningsvis bemerker vi at gjennomsnittlig størrelse på anleggsmidler og gjennomsnittsverdi produserte produkter fra en bedrift er direkte proporsjonale med størrelsen på bedriften (med antall arbeidere).

Gruppering- dette er inndelingen av en befolkning i grupper som er homogene i henhold til en eller annen egenskap.

Formålet med tjenesten. Ved å bruke den elektroniske kalkulatoren kan du:

  • bygge en variantserie, bygg et histogram og polygon;
  • finne indikatorer på variasjon (gjennomsnitt, modus (inkludert grafisk), median, variasjonsområde, kvartiler, desiler,nt, variasjonskoeffisient og andre indikatorer);

Instruksjoner. For å gruppere en serie må du velge typen variasjonsserie som er oppnådd (diskret eller intervall) og angi mengden data (antall rader). Den resulterende løsningen lagres i en Word-fil (se eksempel på gruppering av statistiske data).

Antall inndata
",0);">

Hvis grupperingen allerede er utført og diskrete variasjonsserier eller intervallserie, så må du bruke den elektroniske kalkulatoren Variation Indices. Teste hypotesen om type distribusjon utføres ved hjelp av tjenesten Studere distribusjonsskjemaet.

Typer statistiske grupperinger

Variasjonsserie. Ved observasjoner av diskrete tilfeldig variabel samme betydning kan finnes flere ganger. Slike verdier x i av en tilfeldig variabel er registrert som indikerer n i antall ganger den vises i n observasjoner, dette er frekvensen til denne verdien.
Ved en kontinuerlig stokastisk variabel brukes gruppering i praksis.
  1. Typologisk gruppering- dette er inndelingen av den kvalitativt heterogene befolkningen som studeres i klasser, sosioøkonomiske typer, homogene grupper av enheter. For å bygge denne grupperingen, bruk parameteren Diskret variantserie.
  2. En gruppering kalles strukturell, der en homogen populasjon er delt inn i grupper som karakteriserer dens struktur i henhold til noen varierende karakteristikk. For å bygge denne grupperingen, bruk parameteren Interval series.
  3. En gruppering som avslører sammenhengene mellom fenomenene som studeres og deres egenskaper kalles analytisk gruppe(se analytisk gruppering av serier).

Prinsipper for å konstruere statistiske grupperinger

En serie observasjoner ordnet i stigende rekkefølge kalles en variasjonsserie. Grupperingsfunksjon er en egenskap som gjør at en populasjon er delt inn i separate grupper. Det kalles grunnlaget for gruppen. Grupperingen kan baseres på både kvantitative og kvalitative egenskaper.
Etter å ha fastslått grunnlaget for grupperingen, bør spørsmålet om antall grupper som befolkningen under utredning skal deles inn i, avgjøres.

Ved bruk av personlige datamaskiner for å behandle statistiske data, utføres gruppering av objektenheter ved bruk av standardprosedyrer.
En slik prosedyre er basert på bruken av Sturgess-formelen for å bestemme det optimale antallet grupper:

k = 1+3,322*log(N)

Der k er antall grupper, N er antall befolkningsenheter.

Lengden på delintervaller beregnes som h=(x maks -x min)/k

Deretter telles antallet observasjoner som faller inn i disse intervallene, som tas som frekvenser n i. Få frekvenser, hvis verdier er mindre enn 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
De midterste verdiene av intervallene x i =(c i-1 +c i)/2 tas som nye verdier.