Biografije Karakteristike Analiza

Kako izračunati formulu aritmetičke sredine. Odredite ukupni indeks ponude prehrambenih proizvoda na veliko u stvarnim cijenama

Kako izračunati prosjek brojeva u Excelu

Pomoću funkcije možete pronaći aritmetičku sredinu brojeva u Excelu.

Sintaksa AVERAGE

=PROSJEK(broj1,[broj2],…) - ruska verzija

Argumenti PROSJEČNO

  • broj 1- prvi broj ili niz brojeva, za izračunavanje aritmetičke sredine;
  • broj2(Neobavezno) – drugi broj ili niz brojeva za izračun aritmetičke sredine. Maksimalni broj argumenata funkcije je 255.

Za izračun učinite sljedeće korake:

  • Odaberite bilo koju ćeliju;
  • U nju upiši formulu =PROSJEČNO(
  • Odaberite raspon ćelija za koje želite napraviti izračun;
  • Pritisnite tipku "Enter" na tipkovnici

Funkcija će izračunati prosječnu vrijednost u navedenom rasponu među ćelijama koje sadrže brojeve.

Kako pronaći prosječnu vrijednost zadanog teksta

Ako u rasponu podataka ima praznih redaka ili teksta, funkcija ih tretira kao "nulu". Ako među podacima postoje logički izrazi FALSE ili TRUE, tada funkcija percipira FALSE kao "nula", a TRUE kao "1".

Kako pronaći aritmetičku sredinu prema uvjetu

Funkcija se koristi za izračunavanje prosjeka prema uvjetu ili kriteriju. Na primjer, recimo da imamo podatke o prodaji proizvoda:

Naš zadatak je izračunati prosječnu prodaju olovaka. Da bismo to učinili, poduzet ćemo sljedeće korake:

  • U ćeliji A13 napišite naziv proizvoda "Olovke";
  • U ćeliji B13 unesimo formulu:

=PROSJEČNOIF(A2:A10,A13,B2:B10)

Raspon ćelija “ A2:A10” pokazuje na popis proizvoda u kojima ćemo pretraživati ​​riječ „Olovke”. Argument A13 ovo je poveznica na ćeliju s tekstom koji ćemo tražiti među cijelim popisom proizvoda. Raspon ćelija “ B2:B10” je raspon s podacima o prodaji proizvoda među kojima će funkcija pronaći „Olovke” i izračunati prosječnu vrijednost.


Za analizu i dobivanje statističkih zaključaka o rezultatu sumiranja i grupiranja izračunavaju se generalizirajući pokazatelji - prosječne i relativne vrijednosti.

Problem prosjeka - okarakterizirati sve jedinice statističke populacije jednom vrijednošću atributa.

Prosječne vrijednosti karakteriziraju kvalitativne pokazatelje poduzetničke aktivnosti: troškove distribucije, dobit, profitabilnost itd.

Prosječna vrijednost- ovo je generalizirajuća karakteristika jedinica populacije prema nekom različitom atributu.

Prosječne vrijednosti omogućuju usporedbu razina iste osobine u različitim populacijama i pronalaženje razloga za ta odstupanja.

U analizi fenomena koji se proučavaju, uloga prosječnih vrijednosti je ogromna. Engleski ekonomist W. Petty (1623.-1687.) intenzivno se koristio prosjekima. V. Petty je želio koristiti prosječne vrijednosti kao mjeru troška potrošnje na prosječno dnevno uzdržavanje jednog radnika. Stabilnost prosječne vrijednosti odraz je obrazaca procesa koji se proučavaju. Vjerovao je da se informacija može transformirati čak i ako nema dovoljno početnih podataka.

Engleski znanstvenik G. King (1648-1712) koristio je prosječne i relativne vrijednosti pri analizi podataka o stanovništvu Engleske.

Teorijski razvoj belgijskog statističara A. Queteleta (1796.-1874.) temelji se na nedosljednosti prirode društvenih pojava - vrlo stabilnih u masi, ali čisto individualnih.

Prema A. Queteletu, trajni uzroci djeluju na isti način na svaku pojavu koja se proučava i čine te pojave međusobno sličnim, stvaraju obrasce zajedničke za sve njih.

Posljedica učenja A. Queteleta bila je dodjela prosječnih vrijednosti kao glavne metode statističke analize. Rekao je da statistički prosjeci nisu kategorija objektivne stvarnosti.

Svoje stavove o prosjeku A. Quetelet izrazio je u svojoj teoriji prosječnog čovjeka. Prosječna osoba je osoba koja ima sve kvalitete u prosječnoj veličini (prosječna smrtnost ili natalitet, prosječna visina i težina, prosječna brzina trčanja, prosječna sklonost braku i samoubojstvu, dobrim djelima itd.). Za A. Queteleta prosječna osoba je ideal osobe. Nedosljednost teorije prosječnog čovjeka A. Queteleta dokazana je u ruskoj statističkoj literaturi krajem 19.-20. stoljeća.

Poznati ruski statističar Yu.E.Yanson (1835.-1893.) napisao je da A. Quetelet pretpostavlja postojanje u prirodi tipa prosječne osobe kao nečeg danog, od čega je život odbacio prosječne ljude danog društva i određeno vrijeme, a to ga dovodi do potpuno mehaničkog pogleda na zakone kretanja društvenog života: kretanje je postupno povećanje prosječnih svojstava osobe, postupno obnavljanje tipa; posljedično, takva nivelacija svih manifestacija života društvenog tijela, izvan koje prestaje svako kretanje naprijed.

Suština ove teorije našla je svoj daljnji razvoj u radovima niza statističkih teoretičara kao teorija pravih vrijednosti. A. Quetelet imao je sljedbenike - njemačkog ekonomista i statističara W. Lexisa (1837.-1914.), koji je teoriju pravih vrijednosti prenio na ekonomske pojave društvenog života. Njegova teorija je poznata kao teorija stabilnosti. Druga verzija idealističke teorije prosjeka temelji se na filozofiji

Njezin je utemeljitelj engleski statističar A. Bowley (1869–1957), jedan od najistaknutijih teoretičara modernog doba na području teorije prosjeka. Njegov koncept prosjeka prikazan je u knjizi "Elementi statistike".

A. Bowley prosjeke promatra samo s kvantitativne strane, odvajajući tako kvantitetu od kvalitete. Utvrđujući značenje prosječnih vrijednosti (ili "njihovu funkciju"), A. Bowley postavlja mahistički princip mišljenja. A. Bowley je napisao da funkcija prosjeka treba izražavati složenu grupu

s nekoliko prostih brojeva. Statističke podatke treba pojednostaviti, grupirati i usrednjiti. Ovakva stajališta zastupali su R. Fisher (1890.-1968.), J. Yule (1871.-1951.), Frederick S. Mills (1892.) i drugi.

U 30-im godinama. 20. stoljeće i sljedećih godina, prosječna vrijednost se smatra društveno značajnim obilježjem, čiji informativni sadržaj ovisi o homogenosti podataka.

Najistaknutiji predstavnici talijanske škole R. Benini (1862-1956) i C. Gini (1884-1965), smatrajući statistiku granom logike, proširili su djelokrug statističke indukcije, ali su povezivali spoznajne principe logike. i statistike s prirodom proučavanih pojava, slijedeći tradiciju sociološkog tumačenja statistike.

U djelima K. Marxa i V. I. Lenjina posebna se uloga pripisuje prosječnim vrijednostima.

K. Marx je tvrdio da se individualna odstupanja od opće razine poništavaju u prosječnoj vrijednosti i prosječna razina postaje generalizirajuća karakteristika masovne pojave. Prosječna vrijednost postaje takva karakteristika masovne pojave samo ako se uzme značajan broj jedinica a te jedinice su kvalitativno homogene. Marx je napisao da je pronađena prosječna vrijednost bila prosjek "... mnogo različitih pojedinačnih vrijednosti iste vrste."

Prosječna vrijednost dobiva posebno značenje u tržišnoj ekonomiji. Pomaže u određivanju nužnog i općeg, trenda zakona gospodarskog razvoja izravno kroz pojedinačne i slučajne.

Prosječne vrijednosti su generalizirajući pokazatelji u kojima se izražava djelovanje općih uvjeta, pravilnost proučavane pojave.

Statistički prosjeci izračunavaju se na temelju masovnih podataka statistički ispravno organiziranog masovnog promatranja. Ako se statistički prosjek izračunava iz masovnih podataka za kvalitativno homogenu populaciju (masovne pojave), tada će biti objektivan.

Prosječna vrijednost je apstraktna, jer karakterizira vrijednost apstraktne jedinice.

Prosjek je apstrahiran iz raznolikosti značajki u pojedinačnim objektima. Apstrakcija je faza znanstvenog istraživanja. Dijalektičko jedinstvo pojedinačnog i općeg ostvaruje se u prosječnoj vrijednosti.

Prosječne vrijednosti treba primijeniti na temelju dijalektičkog shvaćanja kategorija pojedinačnog i općeg, pojedinačnog i masovnog.

Srednji odražava nešto zajedničko što se zbraja u određenom pojedinačnom objektu.

Za prepoznavanje obrazaca u masovnim društvenim procesima, prosječna vrijednost je od velike važnosti.

Otklon pojedinca od općeg je manifestacija razvojnog procesa.

Prosječna vrijednost odražava karakterističnu, tipičnu, stvarnu razinu fenomena koji se proučava. Svrha prosjeka je okarakterizirati te razine i njihove promjene u vremenu i prostoru.

Prosječni pokazatelj je obična vrijednost, jer se formira u normalnim, prirodnim, općim uvjetima za postojanje određene masovne pojave, promatrane u cjelini.

Objektivno svojstvo statističkog procesa ili pojave odražava prosječnu vrijednost.

Pojedinačne vrijednosti proučavanog statističkog obilježja različite su za svaku jedinicu populacije. Prosječna vrijednost pojedinačnih vrijednosti jedne vrste proizvod je nužde, koja je rezultat kumulativnog djelovanja svih jedinica populacije, što se očituje u masi ponavljajućih nezgoda.

Neki pojedinačni fenomeni imaju znakove koji postoje u svim fenomenima, ali u različitim količinama - to je visina ili dob osobe. Ostali znakovi pojedine pojave kvalitativno su različiti u različitim pojavama, odnosno kod jednih su prisutni, a kod drugih se ne uočavaju (muškarac neće postati žena). Prosječna vrijednost se izračunava za znakove koji su kvalitativno homogeni i razlikuju se samo kvantitativno, koji su svojstveni svim pojavama u danom skupu.

Prosječna vrijednost je odraz vrijednosti osobine koja se proučava i mjeri se u istoj dimenziji kao i ta osobina.

Teorija dijalektičkog materijalizma uči da se sve u svijetu mijenja i razvija. Također se mijenjaju i znakovi koje karakteriziraju prosječne vrijednosti, a samim tim i sami prosjeci.

Život je kontinuirani proces stvaranja nečeg novog. Nositelj nove kvalitete su pojedinačni predmeti, zatim se broj tih predmeta povećava, a novo postaje masovno, tipično.

Prosječna vrijednost karakterizira proučavanu populaciju samo po jednoj osnovi. Za cjelovit i sveobuhvatan prikaz proučavane populacije za niz specifičnih obilježja potrebno je imati sustav prosječnih vrijednosti koji može opisati pojavu iz različitih kutova.

2. Vrste prosjeka

U statističkoj obradi materijala javljaju se različiti problemi koje je potrebno riješiti, pa se u statističkoj praksi koriste različite prosječne vrijednosti. Matematička statistika koristi različite prosjeke, kao što su: aritmetički prosjek; geometrijska sredina; prosječni harmonik; korijen znači kvadrat.

Da bi se primijenio jedan od navedenih tipova prosjeka, potrebno je analizirati populaciju koja se proučava, utvrditi materijalni sadržaj fenomena koji se proučava, a sve se to radi na temelju zaključaka dobivenih iz načela smislenosti rezultata. kod vaganja ili zbrajanja.

U proučavanju prosjeka koriste se sljedeći pokazatelji i oznake.

Kriterij po kojem se nalazi prosjek naziva se prosječno obilježje i označava se sa x; vrijednost usrednjenog obilježja za bilo koju jedinicu statističke populacije naziva se njegovo individualno značenje ili opcije, i označava se kao x 1 , X 2 , x 3 ,… X P ; učestalost je ponovljivost pojedinačnih vrijednosti svojstva, označena slovom f.

Aritmetička sredina

Jedna od najčešćih vrsta medija aritmetička sredina, koji se izračunava kada se volumen usrednjenog atributa formira kao zbroj njegovih vrijednosti za pojedine jedinice proučavane statističke populacije.

Da bi se izračunala aritmetička sredina, zbroj svih razina obilježja dijeli se njihovim brojem.


Ako se neke opcije pojavljuju nekoliko puta, tada se zbroj razina atributa može dobiti množenjem svake razine s odgovarajućim brojem jedinica populacije, nakon čega slijedi zbrajanje dobivenih proizvoda, aritmetička sredina izračunata na ovaj način naziva se ponderirana aritmetika značiti.

Formula za ponderiranu aritmetičku sredinu je sljedeća:


gdje su x i opcije,

f i - frekvencije ili težine.

Ponderirani prosjek trebao bi se koristiti u svim slučajevima kada varijante imaju različitu zastupljenost.

Aritmetički prosjek, takoreći, ravnomjerno raspodjeljuje među pojedinačnim objektima ukupnu vrijednost atributa, koja zapravo varira za svaki od njih.

Izračunavanje prosječnih vrijednosti provodi se prema podacima grupiranim u obliku serija intervalne distribucije, kada su varijante svojstava iz kojih se izračunava prosjek prikazane u obliku intervala (od - do).

Svojstva aritmetičke sredine:

1) aritmetička sredina zbroja promjenjivih vrijednosti jednaka je zbroju aritmetičkih sredina: Ako je x i = y i + z i , tada


Ovo svojstvo pokazuje u kojim slučajevima je moguće sažeti prosječne vrijednosti.

2) algebarski zbroj odstupanja pojedinačnih vrijednosti karakteristike varijable od srednje vrijednosti jednak je nuli, jer je zbroj odstupanja u jednom smjeru kompenziran zbrojem odstupanja u drugom smjeru:


Ovo pravilo pokazuje da je srednja vrijednost rezultanta.

3) ako se sve varijante serije povećaju ili smanje za isti broj?, tada će se prosjek povećati ili smanjiti za isti broj?:


4) ako se sve varijante serije povećaju ili smanje za A puta, tada će se i prosjek povećati ili smanjiti za A puta:


5) peto svojstvo prosjeka nam pokazuje da on ne ovisi o veličini utega, već o odnosu među njima. Kao težine mogu se uzeti ne samo relativne, već i apsolutne vrijednosti.

Ako se sve frekvencije serije podijele ili pomnože s istim brojem d, tada se prosjek neće promijeniti.


Prosječni harmonik. Da bi se odredila aritmetička sredina, potrebno je imati više opcija i frekvencija, tj. x i f.

Pretpostavimo da znamo pojedinačne vrijednosti značajke x i radi X/, i frekvencije f su nepoznati, tada, za izračunavanje prosjeka, označavamo proizvod = X/; gdje:



Prosjek u ovom obliku naziva se harmonijski ponderirani prosjek i označava se x šteta. vzvv.

Prema tome, harmonijska sredina je identična aritmetičkoj sredini. Primjenjivo je kada stvarne težine nisu poznate. f, a proizvod je poznat fx = z

Kada radovi fx jednaka ili jednaka jedinici (m = 1), koristi se harmonijska jednostavna sredina izračunata formulom:


gdje x- odvojene opcije;

n- broj.

Geometrijska sredina

Ako postoji n faktora rasta, tada je formula za prosječni koeficijent:


Ovo je formula geometrijske sredine.

Geometrijska sredina jednaka je korijenu stupnja n od umnoška koeficijenata rasta koji karakteriziraju omjer vrijednosti svakog sljedećeg razdoblja prema vrijednosti prethodnog.

Ako vrijednosti izražene kao kvadratne funkcije podliježu usrednjavanju, koristi se srednja vrijednost kvadrata. Na primjer, pomoću srednjeg kvadrata možete odrediti promjere cijevi, kotača itd.

Srednji kvadrat jednostavnog određuje se uzimanjem kvadratnog korijena kvocijenta iz dijeljenja zbroja kvadrata pojedinačnih vrijednosti obilježja njihovim brojem.


Ponderirana sredina kvadrata je:

3. Strukturni prosjeci. Mod i medijan

Za karakterizaciju strukture statističke populacije koriste se pokazatelji tzv strukturni prosjeci. To uključuje mod i medijan.

Moda (M oko ) - najčešća opcija. Moda naziva se vrijednost značajke, koja odgovara maksimalnoj točki teorijske krivulje distribucije.

Način predstavlja vrijednost koja se najčešće pojavljuje ili je tipična.

Moda se koristi u komercijalnoj praksi za proučavanje potražnje potrošača i bilježenje cijena.

U diskretnom nizu, mod je varijanta s najvećom frekvencijom. U seriji varijacija intervala modom se smatra središnja varijanta intervala koja ima najveću frekvenciju (posebnost).

Unutar intervala potrebno je pronaći vrijednost atributa koji je mod.


gdje x oko je donja granica modalnog intervala;

h je vrijednost modalnog intervala;

fm je frekvencija modalnog intervala;

f t-1 - frekvencija intervala koji prethodi modalnom;

fm+1 je frekvencija intervala koji slijedi nakon modala.

Način ovisi o veličini skupina, o točnom položaju granica skupina.

Moda- broj koji se zapravo najčešće pojavljuje (određena je vrijednost), u praksi ima najširu primjenu (najčešća vrsta kupaca).

Medijan (M e- ovo je vrijednost koja dijeli broj uređenih varijacijskih nizova na dva jednaka dijela: jedan dio ima vrijednosti varijabilnog obilježja koje su manje od prosječne varijante, a drugi je veliki.

Medijan je element koji je veći ili jednak i istovremeno manji ili jednak polovici preostalih elemenata niza distribucije.

Svojstvo medijana je da je zbroj apsolutnih odstupanja vrijednosti svojstva od medijana manji nego od bilo koje druge vrijednosti.

Korištenje medijana omogućuje vam da dobijete točnije rezultate nego korištenje drugih oblika prosjeka.

Redoslijed pronalaženja medijana u seriji intervalnih varijacija je sljedeći: pojedinačne vrijednosti atributa raspoređujemo po rangu; odrediti akumulirane frekvencije za ovaj rangirani niz; prema akumuliranim frekvencijama nalazimo srednji interval:


gdje x ja je donja granica srednjeg intervala;

ja Mi je vrijednost srednjeg intervala;

f/2 je polovica zbroja frekvencija niza;

S Mi-1 je zbroj akumuliranih frekvencija koje prethode srednjem intervalu;

f Mi je frekvencija srednjeg intervala.

Medijan dijeli broj redaka na pola, dakle, to je mjesto gdje je akumulirana učestalost polovica ili veća od polovice ukupnog broja frekvencija, a prethodna (kumulativna) frekvencija manja je od polovice populacije.

U većini slučajeva podaci su koncentrirani oko neke središnje točke. Stoga je za opis bilo kojeg skupa podataka dovoljno navesti prosječnu vrijednost. Razmotrite tri numeričke karakteristike koje se koriste za procjenu srednje vrijednosti distribucije: aritmetičku sredinu, medijan i modus.

Prosjek

Aritmetička sredina (često se naziva jednostavno srednja vrijednost) je najčešća procjena srednje vrijednosti distribucije. To je rezultat dijeljenja zbroja svih promatranih numeričkih vrijednosti njihovim brojem. Za uzorak brojeva X 1, X 2, ..., Xn, srednja vrijednost uzorka (označena simbolom ) jednako \u003d (X 1 + X 2 + ... + Xn) / n, ili

gdje je srednja vrijednost uzorka, n- veličina uzorka, xja– i-ti element uzorka.

Preuzmite bilješku u ili formatu, primjere u formatu

Razmotrite izračun aritmetičke sredine petogodišnjih prosječnih godišnjih prinosa 15 vrlo visokorizičnih zajedničkih fondova (Slika 1).

Riža. 1. Prosječni godišnji prinos na 15 investicijskih fondova vrlo visokog rizika

Srednja vrijednost uzorka izračunava se na sljedeći način:

Ovo je dobar povrat, posebno u usporedbi s povratom od 3-4% koji su štediše banaka ili kreditnih unija primili u istom vremenskom razdoblju. Ako sortirate vrijednosti povrata, lako je vidjeti da osam fondova ima povrat iznad, a sedam - ispod prosjeka. Aritmetička sredina djeluje kao točka ravnoteže, tako da fondovi s niskim prihodima uravnotežuju fondove s visokim prihodima. U izračun prosjeka uključeni su svi elementi uzorka. Niti jedan od drugih procjenitelja sredine distribucije nema ovo svojstvo.

Kada izračunati aritmetičku sredinu. Budući da aritmetička sredina ovisi o svim elementima uzorka, prisutnost ekstremnih vrijednosti značajno utječe na rezultat. U takvim situacijama aritmetička sredina može iskriviti značenje numeričkih podataka. Stoga, kada se opisuje skup podataka koji sadrži ekstremne vrijednosti, potrebno je navesti medijan ili aritmetičku sredinu i medijan. Na primjer, ako se prinos fonda RS Emerging Growth ukloni iz uzorka, prosjek uzorka prinosa 14 fondova smanjuje se za gotovo 1% na 5,19%.

Medijan

Medijan je srednja vrijednost uređenog niza brojeva. Ako niz ne sadrži brojeve koji se ponavljaju, tada će polovica njegovih elemenata biti manja od, a polovica veća od medijana. Ako uzorak sadrži ekstremne vrijednosti, za procjenu srednje vrijednosti bolje je koristiti medijan nego aritmetičku sredinu. Da biste izračunali medijan uzorka, prvo ga morate sortirati.

Ova formula je dvosmislena. Njegov rezultat ovisi o tome je li broj paran ili neparan. n:

  • Ako uzorak sadrži neparan broj stavki, medijan je (n+1)/2-ti element.
  • Ako uzorak sadrži paran broj elemenata, medijan se nalazi između dva srednja elementa uzorka i jednak je aritmetičkoj sredini izračunatoj preko ta dva elementa.

Kako bismo izračunali medijan za uzorak od 15 uzajamnih fondova vrlo visokog rizika, prvo moramo sortirati neobrađene podatke (Slika 2). Tada će medijan biti nasuprot broju srednjeg elementa uzorka; u našem primjeru broj 8. Excel ima posebnu funkciju =MEDIAN() koja radi i s neuređenim nizovima.

Riža. 2. Medijan 15 sredstava

Dakle, medijan je 6,5. To znači da polovica vrlo rizičnih fondova ne prelazi 6,5, dok druga polovica to čini. Imajte na umu da je medijan od 6,5 malo veći od medijana od 6,08.

Ako iz uzorka izuzmemo profitabilnost fonda RS Emerging Growth, onda će medijan preostalih 14 fondova pasti na 6,2%, odnosno ne tako značajno kao aritmetička sredina (slika 3).

Riža. 3. Medijan 14 sredstava

Moda

Pojam je prvi uveo Pearson 1894. Fashion je broj koji se najčešće pojavljuje u uzorku (the most fashionable). Moda dobro opisuje, primjerice, tipičnu reakciju vozača na prometni znak za zaustavljanje prometa. Klasičan primjer korištenja mode je izbor veličine proizvedene serije cipela ili boje tapeta. Ako distribucija ima više modova, tada se kaže da je multimodalna ili multimodalna (ima dva ili više "vrha"). Multimodalna distribucija pruža važne informacije o prirodi varijable koja se proučava. Na primjer, u sociološkim istraživanjima, ako varijabla predstavlja preferenciju ili stav prema nečemu, onda bi multimodalnost mogla značiti da postoji nekoliko izrazito različitih mišljenja. Multimodalnost je također pokazatelj da uzorak nije homogen i da opažanja mogu biti generirana dvjema ili više "preklapajućih" distribucija. Za razliku od aritmetičke sredine, outlieri ne utječu na način. Za kontinuirano distribuirane slučajne varijable, kao što su prosječni godišnji prinosi zajedničkih fondova, način ponekad uopće ne postoji (ili nema smisla). Budući da ti pokazatelji mogu poprimiti različite vrijednosti, ponavljajuće vrijednosti izuzetno su rijetke.

Kvartili

Kvartili su mjere koje se najčešće koriste za procjenu distribucije podataka kada se opisuju svojstva velikih numeričkih uzoraka. Dok medijan dijeli uređeni niz napola (50% elemenata niza manje je od medijana, a 50% je veće), kvartili razbijaju uređeni skup podataka na četiri dijela. Q 1 , medijan i Q 3 vrijednosti su 25., 50. odnosno 75. percentil. Prvi kvartil Q 1 je broj koji dijeli uzorak na dva dijela: 25% elemenata je manje od, a 75% je više od prvog kvartila.

Treći kvartil Q 3 je broj koji također dijeli uzorak na dva dijela: 75% elemenata je manje od, a 25% više od trećeg kvartila.

Za izračun kvartila u verzijama Excela prije 2007. korištena je funkcija =QUARTILE(niz, dio). Počevši od programa Excel 2010, primjenjuju se dvije funkcije:

  • =QUARTILE.ON(niz, dio)
  • =QUARTILE.EXC(niz, dio)

Ove dvije funkcije daju malo različite vrijednosti (slika 4). Na primjer, kada se izračunavaju kvartili uzorka koji sadrži podatke o prosječnom godišnjem prinosu 15 uzajamnih fondova vrlo visokog rizika, Q 1 = 1,8 ili -0,7 za QUARTILE.INC odnosno QUARTILE.EXC. Usput, ranije korištena funkcija QUARTILE odgovara modernoj funkciji QUARTILE.ON. Za izračunavanje kvartila u Excelu pomoću gornjih formula, polje podataka može se ostaviti bez reda.

Riža. 4. Izračunajte kvartile u Excelu

Naglasimo još jednom. Excel može izračunati kvartile za univarijantu diskretne serije, koji sadrži vrijednosti slučajne varijable. Izračun kvartila za distribuciju temeljenu na frekvenciji dan je u odjeljku u nastavku.

geometrijska sredina

Za razliku od aritmetičke sredine, geometrijska sredina mjeri koliko se varijabla promijenila tijekom vremena. Geometrijska sredina je korijen n stupanj od proizvoda n vrijednosti (u Excelu se koristi funkcija = CUGEOM):

G= (X 1 * X 2 * ... * X n) 1/n

Sličan parametar - geometrijska sredina stope povrata - određuje se formulom:

G \u003d [(1 + R 1) * (1 + R 2) * ... * (1 + R n)] 1 / n - 1,

gdje R i- stopa povrata ja-to vremensko razdoblje.

Na primjer, pretpostavimo da početno ulaganje iznosi 100 000 USD. Do kraja prve godine padne na 50 000 USD, a do kraja druge godine oporavi se na početnih 100 000 USD. Stopa povrata na ovo ulaganje tijekom dvije godine godišnji period je jednak 0, budući da su početni i konačni iznos sredstava međusobno jednaki. Međutim, aritmetički prosjek godišnjih stopa povrata je = (-0,5 + 1) / 2 = 0,25 ili 25%, budući da je stopa povrata u prvoj godini R 1 = (50 000 - 100 000) / 100 000 = -0,5 , i u drugom R 2 = (100 000 - 50 000) / 50 000 = 1. Istodobno je geometrijska sredina stope povrata za dvije godine: G = [(1–0,5) * (1 + 1 )] 1 /2 – 1 = ½ – 1 = 1 – 1 = 0. Dakle, geometrijska sredina točnije odražava promjenu (točnije, izostanak promjene) u obujmu ulaganja tijekom dvogodišnjeg razdoblja od aritmetičke sredine.

Zanimljivosti. Prvo, geometrijska sredina će uvijek biti manja od aritmetičke sredine istih brojeva. Osim u slučaju kada su svi uzeti brojevi međusobno jednaki. Drugo, nakon razmatranja svojstava pravokutnog trokuta, može se razumjeti zašto se sredina naziva geometrijskom. Visina pravokutnog trokuta, spuštena na hipotenuzu, je prosječni proporcional između projekcija kateta na hipotenuzu, a svaka kateta je prosječni proporcional između hipotenuze i svoje projekcije na hipotenuzu (sl. 5). Ovo daje geometrijski način konstruiranja geometrijske sredine dva segmenta (duljina): trebate izgraditi krug na zbroju ta dva segmenta kao promjer, zatim visinu, vraćenu od točke njihovog spajanja do sjecišta s krug, dat će željenu vrijednost:

Riža. 5. Geometrijska priroda geometrijske sredine (slika iz Wikipedije)

Drugo važno svojstvo numeričkih podataka je njihovo varijacija karakteriziraju stupanj disperzije podataka. Dva različita uzorka mogu se razlikovati i po srednjim vrijednostima i po varijacijama. Međutim, kao što je prikazano na sl. 6 i 7, dva uzorka mogu imati istu varijaciju, ali različite srednje vrijednosti, ili istu srednju vrijednost, a potpuno različite varijacije. Podaci koji odgovaraju poligonu B na sl. 7 mijenjaju mnogo manje od podataka od kojih je izgrađen poligon A.

Riža. 6. Dvije simetrične zvonaste distribucije s istim rasponom i različitim srednjim vrijednostima

Riža. 7. Dvije simetrične zvonaste distribucije s istim srednjim vrijednostima i različitim raspršenjem

Postoji pet procjena varijacije podataka:

  • raspon,
  • interkvartilni Raspon,
  • disperzija,
  • standardna devijacija,
  • koeficijent varijacije.

djelokrug

Raspon je razlika između najvećeg i najmanjeg elementa uzorka:

Povucite = XMax-XMin

Raspon uzorka koji sadrži prosječne godišnje prinose 15 uzajamnih fondova vrlo visokog rizika može se izračunati pomoću uređenog niza (vidi sliku 4): raspon = 18,5 - (-6,1) = 24,6. To znači da je razlika između najvećeg i najnižeg prosječnog godišnjeg prinosa za vrlo rizične fondove 24,6%.

Raspon mjeri ukupno širenje podataka. Iako je raspon uzorka vrlo jednostavna procjena ukupnog širenja podataka, njegova slabost je što ne uzima u obzir točno kako su podaci raspoređeni između minimalnih i maksimalnih elemenata. Ovaj učinak se dobro vidi na sl. 8 koja ilustrira uzorke koji imaju isti raspon. Ljestvica B pokazuje da ako uzorak sadrži barem jednu ekstremnu vrijednost, raspon uzorka je vrlo netočna procjena raspršenosti podataka.

Riža. 8. Usporedba tri uzorka s istim rasponom; trokut simbolizira potporu ravnoteže, a njegov položaj odgovara prosječnoj vrijednosti uzorka

Interkvartilni Raspon

Interkvartil ili srednji raspon je razlika između trećeg i prvog kvartila uzorka:

Interkvartilni raspon \u003d Q 3 - Q 1

Ova vrijednost omogućuje procjenu širenja 50% elemenata i ne uzima u obzir utjecaj ekstremnih elemenata. Interkvartilni raspon za uzorak koji sadrži podatke o prosječnim godišnjim prinosima 15 vrlo visokorizičnih zajedničkih fondova može se izračunati pomoću podataka na slici. 4 (na primjer, za funkciju QUARTILE.EXC): Interkvartilni raspon = 9,8 - (-0,7) = 10,5. Interval između 9,8 i -0,7 često se naziva središnja polovica.

Treba napomenuti da vrijednosti Q 1 i Q 3, a time i interkvartilni raspon, ne ovise o prisutnosti outliera, jer njihov izračun ne uzima u obzir bilo koju vrijednost koja bi bila manja od Q 1 ili veća od Q 3 . Ukupne kvantitativne karakteristike, kao što su medijan, prvi i treći kvartil te interkvartilni raspon, na koje ne utječu outlieri, nazivaju se robusnim pokazateljima.

Iako raspon i interkvartilni raspon daju procjenu ukupnog i srednjeg raspršenja uzorka, nijedna od ovih procjena ne uzima u obzir točno kako su podaci distribuirani. Varijanca i standardna devijacija bez ovog nedostatka. Ovi pokazatelji omogućuju procjenu stupnja fluktuacije podataka oko srednje vrijednosti. Varijanca uzorka je aproksimacija aritmetičke sredine izračunate iz kvadrata razlika između svakog elementa uzorka i srednje vrijednosti uzorka. Za uzorak X 1 , X 2 , ... X n varijanca uzorka (označena simbolom S 2 dana je sljedećom formulom:

Općenito, varijanca uzorka je zbroj kvadrata razlika između elemenata uzorka i srednje vrijednosti uzorka, podijeljen s vrijednošću jednakom veličini uzorka minus jedan:

gdje - aritmetička sredina, n- veličina uzorka, X i - ja-th ogledni element x. U Excelu prije verzije 2007. za izračun varijance uzorka koristila se funkcija =VAR(), a od verzije 2010. koristi se funkcija =VAR.V().

Najpraktičnija i široko prihvaćena procjena raspršenosti podataka je standardna devijacija. Ovaj pokazatelj je označen simbolom S i jednak je kvadratnom korijenu varijance uzorka:

U Excelu prije verzije 2007. za izračun standardne devijacije korištena je funkcija =STDEV(), a od verzije 2010. koristi se funkcija =STDEV.V(). Za izračun ovih funkcija, polje podataka može biti neuređeno.

Niti varijanca uzorka niti standardna devijacija uzorka ne mogu biti negativne. Jedina situacija u kojoj indikatori S 2 i S mogu biti nula je ako su svi elementi uzorka jednaki. U ovom potpuno nevjerojatnom slučaju raspon i interkvartilni raspon također su nula.

Numerički podaci su sami po sebi nepostojani. Svaka varijabla može poprimiti mnogo različitih vrijednosti. Na primjer, različiti zajednički fondovi imaju različite stope povrata i gubitka. Zbog varijabilnosti numeričkih podataka, vrlo je važno proučavati ne samo procjene srednje vrijednosti, koje su sumativne prirode, već i procjene varijance, koje karakteriziraju raspršenost podataka.

Varijanca i standardna devijacija omogućuju nam da procijenimo širenje podataka oko srednje vrijednosti, drugim riječima, da odredimo koliko je elemenata uzorka manje od srednje vrijednosti, a koliko ih je veće. Disperzija ima neka vrijedna matematička svojstva. Međutim, njegova vrijednost je kvadrat jedinice mjere - kvadratni postotak, kvadratni dolar, kvadratni inč itd. Stoga je prirodna procjena varijance standardna devijacija, koja se izražava u uobičajenim mjernim jedinicama - postotak prihoda, dolari ili inči.

Standardna devijacija omogućuje procjenu količine fluktuacije elemenata uzorka oko srednje vrijednosti. U gotovo svim situacijama, većina promatranih vrijednosti leži unutar plus ili minus jedne standardne devijacije od srednje vrijednosti. Dakle, poznavajući aritmetičku sredinu elemenata uzorka i standardnu ​​devijaciju uzorka, moguće je odrediti interval kojemu pripada glavnina podataka.

Standardna devijacija prinosa na 15 investicijskih fondova vrlo visokog rizika je 6,6 (Slika 9). To znači da se profitabilnost većine fondova razlikuje od prosječne vrijednosti ne više od 6,6% (tj. varira u rasponu od – S= 6,2 – 6,6 = –0,4 do + S= 12,8). Zapravo, ovaj interval sadrži petogodišnji prosječni godišnji povrat od 53,3% (8 od 15) sredstava.

Riža. 9. Standardna devijacija

Imajte na umu da u procesu zbrajanja kvadrata razlika stavke koje su dalje od srednje vrijednosti dobivaju veću težinu od stavki koje su bliže. Ovo je svojstvo glavni razlog zašto se aritmetička sredina najčešće koristi za procjenu srednje vrijednosti distribucije.

Koeficijent varijacije

Za razliku od prethodnih procjena raspršenosti, koeficijent varijacije je relativna procjena. Uvijek se mjeri kao postotak, a ne u izvornim podatkovnim jedinicama. Koeficijent varijacije, označen simbolima CV, mjeri raspršenost podataka oko srednje vrijednosti. Koeficijent varijacije jednak je standardnoj devijaciji podijeljenoj s aritmetičkom sredinom i pomnoženoj sa 100%:

gdje S- standardna devijacija uzorka, - srednja vrijednost uzorka.

Koeficijent varijacije omogućuje vam usporedbu dva uzorka čiji su elementi izraženi u različitim mjernim jedinicama. Na primjer, voditelj službe za dostavu pošte namjerava unaprijediti vozni park kamiona. Prilikom utovara paketa, postoje dvije vrste ograničenja koje treba uzeti u obzir: težina (u funtama) i volumen (u kubičnim stopama) svakog paketa. Pretpostavimo da je u uzorku od 200 vrećica prosječna težina 26,0 funti, standardna devijacija težine 3,9 funti, prosječni volumen pakiranja 8,8 kubičnih stopa, a standardna devijacija volumena 2,2 kubične stope. Kako usporediti raspored težine i volumena paketa?

Budući da se mjerne jedinice za težinu i obujam razlikuju jedna od druge, menadžer mora usporediti relativno širenje ovih vrijednosti. Koeficijent varijacije težine je CV W = 3,9 / 26,0 * 100% = 15%, a koeficijent varijacije volumena CV V = 2,2 / 8,8 * 100% = 25%. Stoga je relativno raspršenje volumena paketa puno veće od relativnog raspršenja njihovih težina.

Obrazac distribucije

Treće važno svojstvo uzorka je oblik njegove distribucije. Ova distribucija može biti simetrična ili asimetrična. Da bi se opisao oblik distribucije, potrebno je izračunati njenu srednju vrijednost i medijan. Ako su te dvije mjere iste, kaže se da je varijabla simetrično raspodijeljena. Ako je srednja vrijednost varijable veća od medijana, njezina distribucija ima pozitivnu asimetriju (slika 10). Ako je medijan veći od srednje vrijednosti, distribucija varijable je negativno iskrivljena. Pozitivna asimetrija se javlja kada se srednja vrijednost poveća na neobično visoke vrijednosti. Negativna asimetrija se javlja kada se srednja vrijednost smanji na neobično male vrijednosti. Varijabla je simetrično raspodijeljena ako ne poprima nikakve ekstremne vrijednosti ni u jednom smjeru, tako da se velike i male vrijednosti varijable međusobno poništavaju.

Riža. 10. Tri vrste distribucija

Podaci prikazani na A skali imaju negativnu asimetriju. Ova slika prikazuje dugi rep i lijevo zakrivljenje uzrokovano neobično malim vrijednostima. Ove izuzetno male vrijednosti pomiču srednju vrijednost ulijevo i ona postaje manja od medijana. Podaci prikazani na skali B raspoređeni su simetrično. Lijeva i desna polovica distribucije su njihove zrcalne slike. Velike i male vrijednosti uravnotežuju jedna drugu, a srednja vrijednost i medijan su jednaki. Podaci prikazani na skali B imaju pozitivnu asimetriju. Ova slika pokazuje dugačak rep i zakrivljenost udesno, uzrokovanu prisutnošću neobično visokih vrijednosti. Ove prevelike vrijednosti pomiču srednju vrijednost udesno i ona postaje veća od medijana.

U Excelu se deskriptivna statistika može dobiti pomoću dodatka Paket analiza. Prođite kroz izbornik PodaciAnaliza podataka, u prozoru koji se otvori odaberite liniju Opisne statistike i kliknite U redu. U prozoru Opisne statistike obavezno naznačiti interval unosa(slika 11). Ako želite vidjeti deskriptivnu statistiku na istom listu kao i izvorni podaci, odaberite radio gumb izlazni interval i odredite ćeliju u koju želite smjestiti gornji lijevi kut prikazane statistike (u našem primjeru $C$1). Ako želite ispisati podatke na novi list ili u novu radnu knjigu, jednostavno odaberite odgovarajući radio gumb. Označite okvir pored Konačna statistika. Po želji, također možete birati Razina težine,k-ti najmanji ik-ti najveći.

Ako je na depozit Podaci na području Analiza ne vidite ikonu Analiza podataka, prvo morate instalirati dodatak Paket analiza(vidi, na primjer,).

Riža. 11. Deskriptivna statistika petogodišnjih prosječnih godišnjih prinosa fondova s ​​vrlo visokim razinama rizika, izračunatih korištenjem dodatka Analiza podataka Excel programi

Excel izračunava niz statistika o kojima je gore bilo riječi: srednja vrijednost, medijan, način, standardna devijacija, varijanca, raspon ( interval), minimalna, maksimalna i veličina uzorka ( ček). Osim toga, Excel izračunava neke nove statistike za nas: standardnu ​​pogrešku, kurtozu i asimetriju. standardna pogreška jednako je standardnom odstupanju podijeljenom s kvadratnim korijenom veličine uzorka. Asimetrija karakterizira odstupanje od simetrije distribucije i funkcija je koja ovisi o kubu razlika između elemenata uzorka i srednje vrijednosti. Kurtoza je mjera relativne koncentracije podataka oko srednje vrijednosti u odnosu na repove distribucije, a ovisi o razlikama između uzorka i srednje vrijednosti podignute na četvrtu potenciju.

Izračun deskriptivne statistike za opću populaciju

Srednja vrijednost, raspršenost i oblik distribucije o kojima se gore govori su karakteristike koje se temelje na uzorku. Međutim, ako skup podataka sadrži numerička mjerenja cijele populacije, tada se njegovi parametri mogu izračunati. Ovi parametri uključuju srednju vrijednost, varijancu i standardnu ​​devijaciju populacije.

Očekivana vrijednost jednak je zbroju svih vrijednosti opće populacije podijeljenom s volumenom opće populacije:

gdje µ - očekivana vrijednost, xja- ja-th varijabla promatranje x, N- obujam opće populacije. U Excelu se za izračun matematičkog očekivanja koristi ista funkcija kao i za aritmetičku sredinu: =AVERAGE().

Varijanca populacije jednak zbroju kvadrata razlika između elemenata opće populacije i mat. očekivanje podijeljeno s veličinom populacije:

gdje σ2 je varijanca opće populacije. Excel prije verzije 2007 koristi funkciju =VAR() za izračun varijance populacije, počevši od verzije 2010 =VAR.G().

standardna devijacija stanovništva jednak je kvadratnom korijenu varijance populacije:

Excel prije verzije 2007 koristi =STDEV() za izračun standardne devijacije populacije, počevši od verzije 2010 =STDEV.Y(). Imajte na umu da se formule za varijancu populacije i standardnu ​​devijaciju razlikuju od formula za varijancu uzorka i standardnu ​​devijaciju. Prilikom izračunavanja statistike uzorka S2 i S nazivnik razlomka je n - 1, a pri izračunu parametara σ2 i σ - obujam opće populacije N.

praktično pravilo

U većini situacija, veliki dio opažanja koncentriran je oko medijana, tvoreći klaster. U skupovima podataka s pozitivnom asimetrijom, ovaj se klaster nalazi lijevo (tj. ispod) od matematičkog očekivanja, a u skupovima s negativnom asimetrijom, ovaj se klaster nalazi desno (tj. iznad) od matematičkog očekivanja. Simetrični podaci imaju istu srednju vrijednost i medijan, a opažanja se grupiraju oko srednje vrijednosti, tvoreći raspodjelu u obliku zvona. Ako distribucija nema izraženu asimetriju, a podaci su koncentrirani oko određenog težišta, za procjenu varijabilnosti može se upotrijebiti pravilo koje kaže: ako podaci imaju zvonoliku distribuciju, tada je približno 68% opažanja je manje od jedne standardne devijacije od matematičkog očekivanja, Otprilike 95% opažanja je unutar dvije standardne devijacije očekivane vrijednosti, a 99,7% opažanja je unutar tri standardne devijacije očekivane vrijednosti.

Stoga standardna devijacija, koja je procjena prosječne fluktuacije oko matematičkog očekivanja, pomaže razumjeti kako su opažanja raspoređena i identificirati odstupanja. Iz praktičnog pravila proizlazi da se za zvonaste raspodjele samo jedna vrijednost od dvadeset razlikuje od matematičkog očekivanja za više od dvije standardne devijacije. Dakle, vrijednosti izvan intervala µ ± 2σ, mogu se smatrati ekstremima. Osim toga, samo tri od 1000 opažanja razlikuju se od matematičkog očekivanja za više od tri standardne devijacije. Dakle, vrijednosti izvan intervala µ ± 3σ su gotovo uvijek izvanredni. Za distribucije koje su jako iskrivljene ili nemaju oblik zvona, može se primijeniti Biename-Chebyshevljevo pravilo.

Prije više od stotinu godina matematičari Bienamay i Chebyshev neovisno su otkrili korisno svojstvo standardne devijacije. Otkrili su da za bilo koji skup podataka, bez obzira na oblik distribucije, postotak opažanja koja leže na udaljenosti koja ne prelazi k standardna odstupanja od matematičkog očekivanja, ne manje (1 – 1/ 2)*100%.

Na primjer, ako k= 2, Biename-Chebyshevljevo pravilo kaže da najmanje (1 - (1/2) 2) x 100% = 75% opažanja mora ležati u intervalu µ ± 2σ. Ovo pravilo vrijedi za sve k prekoračenje jedan. Biename-Chebyshevljevo pravilo je vrlo općenite prirode i vrijedi za distribucije bilo koje vrste. Označava minimalni broj opažanja čija udaljenost do matematičkog očekivanja ne prelazi zadanu vrijednost. Međutim, ako je distribucija u obliku zvona, praktično pravilo točnije procjenjuje koncentraciju podataka oko srednje vrijednosti.

Izračunavanje deskriptivne statistike za distribuciju temeljenu na frekvenciji

Ako izvorni podaci nisu dostupni, distribucija učestalosti postaje jedini izvor informacija. U takvim situacijama možete izračunati približne vrijednosti kvantitativnih pokazatelja distribucije, kao što su aritmetička sredina, standardna devijacija, kvartili.

Ako su podaci uzorka predstavljeni kao distribucija frekvencije, može se izračunati približna vrijednost aritmetičke sredine, uz pretpostavku da su sve vrijednosti unutar svake klase koncentrirane na sredini klase:

gdje - srednja vrijednost uzorka, n- broj promatranja ili veličinu uzorka, S- broj razreda u frekvencijskoj distribuciji, mj- središnja točka j- razred, fj- frekvencija koja odgovara j-ti razred.

Kako bi se izračunala standardna devijacija od distribucije frekvencije, također se pretpostavlja da su sve vrijednosti unutar svake klase koncentrirane na sredini klase.

Da bismo razumjeli kako se kvartili niza određuju na temelju frekvencija, razmotrimo izračun donjeg kvartila na temelju podataka za 2013. o distribuciji ruskog stanovništva prema prosječnom novčanom dohotku po glavi stanovnika (slika 12).

Riža. 12. Udio stanovništva Rusije s novčanim dohotkom po stanovniku u prosjeku mjesečno, rubalja

Za izračun prvog kvartila serije varijacija intervala, možete koristiti formulu:

gdje je Q1 vrijednost prvog kvartila, xQ1 je donja granica intervala koji sadrži prvi kvartil (interval je određen akumuliranom frekvencijom, prva prelazi 25%); i je vrijednost intervala; Σf je zbroj frekvencija cijelog uzorka; vjerojatno uvijek jednako 100%; SQ1–1 je kumulativna frekvencija intervala koji prethodi intervalu koji sadrži donji kvartil; fQ1 je frekvencija intervala koji sadrži donji kvartil. Formula za treći kvartil razlikuje se po tome što na svim mjestima umjesto Q1 trebate koristiti Q3 i zamijeniti ¾ umjesto ¼.

U našem primjeru (slika 12), donji kvartil je u rasponu 7000,1 - 10,000, čija je kumulativna učestalost 26,4%. Donja granica ovog intervala je 7000 rubalja, vrijednost intervala je 3000 rubalja, akumulirana frekvencija intervala koji prethodi intervalu koji sadrži donji kvartil je 13,4%, učestalost intervala koji sadrži donji kvartil je 13,0%. Dakle: Q1 \u003d 7000 + 3000 * (¼ * 100 - 13,4) / 13 \u003d 9677 rubalja.

Zamke povezane s deskriptivnom statistikom

U ovoj bilješci pogledali smo kako opisati skup podataka koristeći različite statistike koje procjenjuju njegovu srednju vrijednost, raspršenost i distribuciju. Sljedeći korak je analiza i interpretacija podataka. Do sada smo proučavali objektivna svojstva podataka, a sada se okrećemo njihovoj subjektivnoj interpretaciji. Istraživača čekaju dvije pogreške: pogrešno odabran predmet analize i pogrešna interpretacija rezultata.

Analiza uspješnosti 15 uzajamnih fondova vrlo visokog rizika prilično je nepristrana. Doveo je do potpuno objektivnih zaključaka: svi investicijski fondovi imaju različite prinose, raspon prinosa fondova kreće se od -6,1 do 18,5, a prosječni prinos je 6,08. Objektivnost analize podataka osigurava se pravilnim odabirom ukupnih kvantitativnih pokazatelja distribucije. Razmotreno je nekoliko metoda za procjenu srednje vrijednosti i raspršenosti podataka te su naznačene njihove prednosti i nedostaci. Kako odabrati pravu statistiku koja daje objektivnu i nepristranu analizu? Ako je distribucija podataka malo iskrivljena, treba li odabrati medijan umjesto aritmetičke sredine? Koji pokazatelj točnije karakterizira širenje podataka: standardna devijacija ili raspon? Treba li navesti pozitivnu asimetriju distribucije?

S druge strane, interpretacija podataka je subjektivan proces. Različiti ljudi dolaze do različitih zaključaka, tumačeći iste rezultate. Svatko ima svoje stajalište. Netko ukupne prosječne godišnje prinose 15 fondova s ​​vrlo visokim stupnjem rizika smatra dobrim i prilično je zadovoljan ostvarenim prihodom. Drugi mogu misliti da ti fondovi imaju preniske povrate. Dakle, subjektivnost treba kompenzirati iskrenošću, neutralnošću i jasnoćom zaključaka.

Etički problemi

Analiza podataka neraskidivo je povezana s etičkim pitanjima. Treba biti kritičan prema informacijama koje šire novine, radio, televizija i internet. S vremenom ćete naučiti biti skeptični ne samo prema rezultatima, već i prema ciljevima, predmetu i objektivnosti istraživanja. Poznati britanski političar Benjamin Disraeli to je najbolje rekao: “Postoje tri vrste laži: laži, proklete laži i statistika.”

Kao što je navedeno u bilješci, etička pitanja javljaju se pri odabiru rezultata koji bi trebali biti predstavljeni u izvješću. Treba objaviti i pozitivne i negativne rezultate. Osim toga, prilikom izrade izvješća ili pisanog izvješća, rezultati moraju biti prikazani iskreno, neutralno i objektivno. Razlikujte loše i nepoštene prezentacije. Da biste to učinili, potrebno je utvrditi koje su bile namjere govornika. Ponekad govornik izostavi važne informacije iz neznanja, a ponekad i namjerno (primjerice, ako koristi aritmetičku sredinu za procjenu sredine jasno iskrivljenih podataka kako bi dobio željeni rezultat). Također je nepošteno prikrivati ​​rezultate koji ne odgovaraju stajalištu istraživača.

Korišteni su materijali iz knjige Levin i dr. Statistika za menadžere. - M.: Williams, 2004. - str. 178–209 (prikaz, stručni).

Funkcija QUARTILE zadržana je radi usklađivanja s ranijim verzijama Excela

Prosječne vrijednosti se odnose na generalizirajuće statističke pokazatelje koji daju sumarnu (konačnu) karakteristiku masovnih društvenih pojava, budući da se grade na temelju velikog broja pojedinačnih vrijednosti različitog svojstva. Da bi se pojasnila bit prosječne vrijednosti, potrebno je razmotriti značajke formiranja vrijednosti znakova tih pojava, prema kojima se izračunava prosječna vrijednost.

Poznato je da jedinice svake masovne pojave imaju brojne značajke. Koji god od ovih znakova uzmemo, njegove vrijednosti za pojedine jedinice bit će različite, mijenjaju se ili, kako kažu u statistici, variraju od jedinice do jedinice. Tako je, primjerice, plaća zaposlenika određena njegovim kvalifikacijama, prirodom posla, dužinom radnog staža i nizom drugih čimbenika, pa stoga varira u vrlo širokom rasponu. Kumulativni utjecaj svih faktora određuje visinu primanja svakog zaposlenog, međutim, možemo govoriti o prosječnim mjesečnim plaćama radnika u različitim sektorima gospodarstva. Ovdje operiramo tipičnom, karakterističnom vrijednošću varijabilnog atributa, koja se odnosi na jedinicu velike populacije.

Prosjek to odražava Općenito,što je tipično za sve jedinice proučavane populacije. Istodobno, uravnotežuje utjecaj svih čimbenika koji djeluju na veličinu atributa pojedinih jedinica populacije, kao da ih međusobno poništavaju. Razina (ili veličina) svake društvene pojave određena je djelovanjem dviju skupina čimbenika. Neki od njih su općeniti i glavni, stalno djeluju, usko povezani s prirodom pojave ili procesa koji se proučava, a tvore tipičan za sve jedinice proučavane populacije, što se odražava na prosječnu vrijednost. Drugi jesu pojedinac, njihovo djelovanje je manje izraženo i epizodno je, slučajno. Oni djeluju u suprotnom smjeru, uzrokuju razlike između kvantitativnih obilježja pojedinih jedinica populacije, nastojeći promijeniti stalnu vrijednost proučavanih obilježja. Djelovanje pojedinih znakova gasi se u srednjoj vrijednosti. U kumulativnom utjecaju tipičnih i pojedinačnih čimbenika, koji se u generalizirajućim karakteristikama uravnotežuje i međusobno poništava, temeljni zakon velikih brojeva.

U agregatu se pojedinačne vrijednosti znakova spajaju u zajedničku masu i, takoreći, rastvaraju. Stoga i Prosječna vrijednost djeluje kao "bezlično", što može odstupiti od pojedinačnih vrijednosti značajki, a kvantitativno se ne podudara ni s jednom od njih. Prosječna vrijednost odražava opću, karakterističnu i tipičnu za cjelokupnu populaciju zbog međusobnog poništavanja u njoj slučajnih, atipičnih razlika između znakova njezinih pojedinačnih jedinica, budući da je njezina vrijednost određena, takoreći, zajedničkom rezultantom svih uzroci.

Međutim, kako bi prosječna vrijednost odražavala najtipičniju vrijednost svojstva, ne treba je određivati ​​za bilo koje populacije, već samo za populacije koje se sastoje od kvalitativno homogenih jedinica. Ovaj zahtjev je glavni uvjet za znanstveno utemeljenu primjenu prosjeka i podrazumijeva tijesnu vezu između metode prosjeka i metode grupiranja u analizi društveno-ekonomskih pojava. Stoga je prosječna vrijednost generalizirajući pokazatelj koji karakterizira tipičnu razinu varijabilnog svojstva po jedinici homogene populacije u određenim uvjetima mjesta i vremena.

Određujući, dakle, bit prosječnih vrijednosti, mora se naglasiti da ispravan izračun bilo koje prosječne vrijednosti podrazumijeva ispunjenje sljedećih zahtjeva:

  • kvalitativna homogenost populacije na kojoj se računa prosječna vrijednost. To znači da se izračun prosječnih vrijednosti treba temeljiti na metodi grupiranja, koja osigurava odabir homogenih pojava iste vrste;
  • isključivanje utjecaja na izračun prosječne vrijednosti slučajnih, čisto individualnih uzroka i čimbenika. To se postiže kada se izračunavanje prosjeka temelji na dovoljno masivnom materijalu u kojem se očituje djelovanje zakona velikih brojeva, a sve se nezgode međusobno poništavaju;
  • pri izračunavanju prosječne vrijednosti važno je ustanoviti svrhu njezina izračuna i tzv definiranje pokazatelja-tel(nekretnina) na koju treba biti orijentirana.

Indikator koji određuje može djelovati kao zbroj vrijednosti prosječnog atributa, zbroj njegovih recipročnih vrijednosti, proizvod njegovih vrijednosti itd. Odnos između indikatora koji definira i prosječne vrijednosti izražava se na sljedeći način: ako su svi vrijednosti prosječnog atributa zamjenjuju se prosječnom vrijednošću, tada njihov zbroj ili proizvod u ovom slučaju neće promijeniti pokazatelj koji definira. Na temelju ove povezanosti determinirajućeg pokazatelja s prosječnom vrijednošću gradi se početni kvantitativni omjer za izravan izračun prosječne vrijednosti. Sposobnost prosjeka da sačuvaju svojstva statističkih populacija naziva se definiranje imovine.

Prosječna vrijednost izračunata za populaciju kao cjelinu naziva se opća havarija; prosječne vrijednosti izračunate za svaku skupinu - grupni prosjeci. Opći prosjek odražava opće značajke fenomena koji se proučava, prosjek skupine daje opis fenomena koji se razvija u specifičnim uvjetima ove skupine.

Metode izračuna mogu biti različite, stoga se u statistici razlikuje nekoliko vrsta prosjeka, od kojih su glavni aritmetički prosjek, harmonijski prosjek i geometrijski prosjek.

U ekonomskoj analizi uporaba prosjeka glavni je alat za ocjenu rezultata znanstvenog i tehnološkog napretka, društvenih mjera i traženja rezervi za gospodarski razvoj. U isto vrijeme, treba imati na umu da pretjerana usredotočenost na prosjeke može dovesti do pristranih zaključaka prilikom provođenja ekonomske i statističke analize. To je zbog činjenice da prosječne vrijednosti, kao generalizirajući pokazatelji, poništavaju i zanemaruju one razlike u kvantitativnim karakteristikama pojedinih jedinica populacije koje stvarno postoje i mogu biti od samostalnog interesa.

Vrste prosjeka

U statistici se koriste različite vrste prosjeka koji su podijeljeni u dvije velike klase:

  • prosjeci snage (harmonijska sredina, geometrijska sredina, aritmetička sredina, kvadratna sredina, kubna sredina);
  • strukturni prosjeci (mod, medijan).

Izračunati snaga znači moraju se koristiti sve dostupne karakteristične vrijednosti. Moda i medijan određeni su samo strukturom distribucije, stoga se nazivaju strukturnim, položajnim prosjecima. Medijan i način se često koriste kao prosječna karakteristika u onim populacijama gdje je izračun srednjeg eksponencijala nemoguć ili nepraktičan.

Najčešći tip prosjeka je aritmetički prosjek. Pod, ispod aritmetička sredina Podrazumijeva se takva vrijednost obilježja koju bi svaka jedinica populacije imala kada bi zbroj svih vrijednosti obilježja bio ravnomjerno raspoređen među svim jedinicama populacije. Izračun ove vrijednosti svodi se na zbrajanje svih vrijednosti atributa varijable i dijeljenje dobivenog iznosa s ukupnim brojem jedinica populacije. Na primjer, pet radnika izvršilo je narudžbu za izradu dijelova, dok je prvi proizveo 5 dijelova, drugi - 7, treći - 4, četvrti - 10, peti - 12. Budući da je u početnim podacima vrijednost svakog opcija dogodila samo jednom, za određivanje prosječnog učinka jednog radnika treba primijeniti jednostavnu formulu aritmetičke sredine:

tj. U našem primjeru prosječni učinak jednog radnika jednak je

Uz jednostavnu aritmetičku sredinu proučavaju ponderirana aritmetička sredina. Na primjer, izračunajmo prosječnu dob studenata u grupi od 20 ljudi čija se dob kreće od 18 do 22 godine, gdje xi- varijante prosječnog obilježja, fi- učestalost, koja pokazuje koliko se puta javlja i-ti vrijednost u agregatu (tablica 5.1).

Tablica 5.1

Prosječna dob učenika

Primjenom formule ponderirane aritmetičke sredine dobivamo:


Postoji određeno pravilo za odabir ponderiranog aritmetičkog prosjeka: ako postoji niz podataka o dva pokazatelja, za jedan od kojih je potrebno izračunati

prosječna vrijednost, a istovremeno su poznate numeričke vrijednosti nazivnika njegove logičke formule, a vrijednosti brojnika su nepoznate, ali se mogu pronaći kao produkt tih pokazatelja, tada bi se prosječna vrijednost trebala izračunati pomoću formule aritmetičkog ponderiranog prosjeka.

U nekim slučajevima, priroda početnih statističkih podataka je takva da izračun aritmetičke sredine gubi smisao i jedini generalizirajući pokazatelj može biti samo druga vrsta prosječne vrijednosti - prosječni harmonijski. Trenutno su računalna svojstva aritmetičke sredine izgubila svoju važnost u izračunu generalizirajućih statističkih pokazatelja zbog širokog uvođenja elektroničkih računala. Prosječna harmonijska vrijednost, koja je također jednostavna i ponderirana, stekla je veliku praktičnu važnost. Ako su numeričke vrijednosti brojnika logičke formule poznate, a vrijednosti nazivnika su nepoznate, ali se mogu pronaći kao privatno dijeljenje jednog pokazatelja s drugim, tada se prosječna vrijednost izračunava ponderiranim harmonijska srednja formula.

Na primjer, neka se zna da je automobil prvih 210 km prešao brzinom od 70 km/h, a preostalih 150 km brzinom od 75 km/h. Nemoguće je pomoću formule aritmetičke sredine odrediti prosječnu brzinu automobila na cijelom putu od 360 km. Budući da su opcije brzine u pojedinim dionicama xj= 70 km/h i x2= 75 km/h, a težine (fi) su odgovarajući segmenti puta, tada umnošci opcija po težinama neće imati niti fizičko niti ekonomsko značenje. U tom slučaju ima smisla segmente puta podijeliti na odgovarajuće brzine (opcije xi), odnosno vrijeme utrošeno na prolazak pojedinih dijelova puta (fi / xi). Ako su segmenti puta označeni s fi, tada se cijeli put izražava kao Σfi, a vrijeme provedeno na cijelom putu izražava se kao Σ fi / xi , Tada se prosječna brzina može pronaći kao kvocijent ukupne udaljenosti podijeljene s ukupnim utrošenim vremenom:

U našem primjeru dobivamo:

Ako su pri korištenju prosječne harmonijske težine svih opcija (f) jednake, tada umjesto ponderirane, možete koristiti jednostavna (neponderirana) harmonijska sredina:

gdje xi - pojedinačne opcije; n- broj varijanti prosječnog obilježja. U primjeru s brzinom, jednostavna harmonijska sredina mogla bi se primijeniti ako su segmenti puta prijeđenog različitim brzinama jednaki.

Svaku prosječnu vrijednost treba izračunati tako da se pri zamjeni svake varijante prosječnog obilježja ne promijeni vrijednost nekog konačnog, generalizirajućeg pokazatelja koji je povezan s prosječnim pokazateljem. Dakle, kada se stvarne brzine na pojedinim dionicama puta zamijene njihovom prosječnom vrijednošću (prosječnom brzinom), ukupna udaljenost se ne bi trebala mijenjati.

Oblik (formula) prosječne vrijednosti određen je prirodom (mehanizmom) odnosa ovog konačnog pokazatelja s prosječnim, dakle konačnim pokazateljem, čija se vrijednost ne bi trebala mijenjati kada se opcije zamijene njihovom prosječnom vrijednošću , Zove se definirajući pokazatelj. Da biste dobili prosječnu formulu, morate sastaviti i riješiti jednadžbu koristeći odnos prosječnog pokazatelja s određujućim. Ova se jednadžba konstruira zamjenom varijanti prosječne značajke (indikatora) njihovom prosječnom vrijednošću.

Osim aritmetičke sredine i harmonijske sredine, u statistici se koriste i druge vrste (oblici) sredine. Sve su to posebni slučajevi. prosjek stupnja. Ako izračunamo sve vrste prosjeka potencije za iste podatke, onda vrijednosti

bit će isti, ovdje vrijedi pravilo majoracija srednji. Kako eksponent srednje vrijednosti raste, tako raste i sama srednja vrijednost. Najčešće korištene formule u praktičnim istraživanjima za izračunavanje različitih vrsta srednjih vrijednosti snage prikazane su u tablici. 5.2.

Tablica 5.2


Geometrijska sredina se primjenjuje kada je dostupna. n faktora rasta, dok su pojedinačne vrijednosti svojstva u pravilu relativne vrijednosti dinamike, građene u obliku lančanih vrijednosti, kao omjer prema prethodnoj razini svake razine u nizu dinamike. Prosjek tako karakterizira prosječnu stopu rasta. geometrijska sredina jednostavna izračunati po formuli

Formula ponderirana geometrijska sredina ima sljedeći oblik:

Gore navedene formule su identične, ali jedna se primjenjuje na trenutne koeficijente ili stope rasta, a druga - na apsolutne vrijednosti razina serije.

korijen znači kvadrat koristi se pri računanju s vrijednostima kvadratnih funkcija, koristi se za mjerenje stupnja fluktuacije pojedinačnih vrijednosti atributa oko aritmetičke sredine u seriji distribucije i izračunava se formulom

Ponderirana srednja vrijednost kvadrata izračunati pomoću druge formule:

Prosječna kubna koristi se pri računanju s vrijednostima kubičnih funkcija i izračunava se formulom

ponderirani prosječni kubni:

Sve gore navedene prosječne vrijednosti mogu se predstaviti kao opća formula:

gdje je prosječna vrijednost; - individualna vrijednost; n- broj jedinica proučavane populacije; k- eksponent, koji određuje vrstu prosjeka.

Kada koristite iste izvorne podatke, to više k u općoj formuli srednje snage, veća je srednja vrijednost. Iz ovoga slijedi da postoji pravilan odnos između vrijednosti sredstava snage:

Gore opisane prosječne vrijednosti daju generaliziranu predodžbu o populaciji koja se proučava, a s tog gledišta njihov teorijski, primijenjeni i kognitivni značaj je neosporan. No događa se da se vrijednost prosjeka ne podudara ni s jednom od stvarno postojećih opcija, stoga je, osim razmatranih prosjeka, u statističkoj analizi preporučljivo koristiti vrijednosti specifičnih opcija koje zauzimaju dosta određen položaj u uređenom (rangiranom) nizu vrijednosti atributa. Među tim količinama najčešće se koriste strukturalni, ili opisno, prosječno- mod (Mo) i medijan (Me).

Moda- vrijednost svojstva koje se najčešće nalazi u ovoj populaciji. Što se tiče varijacijskog niza, mod je vrijednost koja se najčešće pojavljuje u rangiranom nizu, tj. varijanta s najvećom učestalošću. Moda se može koristiti za određivanje najposjećenijih trgovina, najčešće cijene za bilo koji proizvod. Prikazuje veličinu obilježja karakterističnog za značajan dio populacije, a određuje se formulom

gdje je x0 donja granica intervala; h- vrijednost intervala; fm- frekvencija intervala; fm_ 1 - frekvencija prethodnog intervala; fm+ 1 - učestalost sljedećeg intervala.

medijan naziva se varijanta koja se nalazi u središtu rangiranog reda. Medijan dijeli niz na dva jednaka dijela na način da se s obje njegove strane nalazi isti broj populacijskih jedinica. Pritom je u jednoj polovici populacijskih jedinica vrijednost varijabilnog atributa manja od medijana, au drugoj polovici veća od nje. Medijan se koristi kada se ispituje element čija je vrijednost veća ili jednaka ili istovremeno manja ili jednaka polovici elemenata serije distribucije. Medijan daje opću ideju o tome gdje su koncentrirane vrijednosti obilježja, drugim riječima, gdje je njihovo središte.

Opisna priroda medijana očituje se u činjenici da karakterizira kvantitativnu granicu vrijednosti različitog atributa, koje posjeduje polovica populacijskih jedinica. Problem pronalaženja medijana za diskretni varijacijski niz rješava se jednostavno. Ako su sve jedinice niza dodijeljene rednim brojevima, tada je redni broj medijalne varijante definiran kao (n + 1) / 2 s neparnim brojem članova n. Ako je broj članova niza paran broj, tada će medijan biti prosjek dviju varijanti sa serijskim brojevima n/ 2 i n / 2 + 1.

Pri određivanju medijana u intervalnim varijacijskim serijama prvo se određuje interval u kojem se nalazi (interval medijana). Ovaj interval karakterizira činjenica da je njegov akumulirani zbroj frekvencija jednak ili premašuje polovicu zbroja svih frekvencija niza. Izračun medijana serije intervalnih varijacija provodi se prema formuli

gdje X0- donja granica intervala; h- vrijednost intervala; fm- frekvencija intervala; f- broj članova serije;

∫m-1 - zbroj akumuliranih članova niza koji prethodi ovom.

Uz medijan, za potpuniju karakterizaciju strukture proučavane populacije, koriste se i druge vrijednosti opcija koje zauzimaju sasvim određenu poziciju u rangiranoj seriji. To uključuje kvartili i decili. Kvartili dijele niz zbrojem frekvencija na 4 jednaka dijela, a decili - na 10 jednakih dijelova. Postoje tri kvartila i devet decila.

Medijan i mod, za razliku od aritmetičke sredine, ne gase individualne razlike u vrijednostima varijabilnog atributa i stoga su dodatne i vrlo važne karakteristike statističke populacije. U praksi se često koriste umjesto prosjeka ili uz njega. Posebno je korisno izračunati medijan i modus u onim slučajevima kada proučavana populacija sadrži određeni broj jedinica s vrlo velikom ili vrlo malom vrijednošću varijabilnog atributa. Ove vrijednosti opcija, koje nisu baš karakteristične za populaciju, iako utječu na vrijednost aritmetičke sredine, ne utječu na vrijednosti medijana i moda, što potonje čini vrlo vrijednim pokazateljima za ekonomsku i statističku analizu .

Indikatori varijacije

Svrha statističke studije je identificirati glavna svojstva i obrasce proučavane statističke populacije. U postupku sumarne obrade podataka statističkih opažanja gradimo distribucijski vodovi. Postoje dvije vrste serija distribucije - atributivne i varijacijske, ovisno o tome je li atribut uzet kao osnova grupiranja kvalitativni ili kvantitativni.

varijacijski nazvane serije distribucije izgrađene na kvantitativnoj osnovi. Vrijednosti kvantitativnih obilježja za pojedine jedinice populacije nisu konstantne, više ili manje se međusobno razlikuju. Ova razlika u vrijednosti neke osobine naziva se varijacije. Nazivaju se zasebne numeričke vrijednosti svojstva koje se pojavljuju u proučavanoj populaciji vrijednosne opcije. Prisutnost varijacije u pojedinim jedinicama populacije posljedica je utjecaja velikog broja čimbenika na formiranje razine svojstava. Proučavanje prirode i stupnja varijacije znakova u pojedinim jedinicama populacije najvažnije je pitanje svake statističke studije. Indikatori varijacije koriste se za opisivanje mjere varijabilnosti svojstva.

Druga važna zadaća statističkih istraživanja jest utvrđivanje uloge pojedinih čimbenika ili njihovih skupina u varijaciji pojedinih obilježja stanovništva. Za rješavanje takvog problema u statistici se koriste posebne metode proučavanja varijacije koje se temelje na korištenju sustava pokazatelja koji mjere varijacije. U praksi se istraživač suočava s dovoljno velikim brojem opcija za vrijednosti atributa, što ne daje ideju o raspodjeli jedinica prema vrijednosti atributa u agregatu. Da biste to učinili, sve varijante vrijednosti atributa raspoređene su uzlaznim ili silaznim redoslijedom. Ovaj proces se zove red poredak. Rangirani niz odmah daje opću ideju o vrijednostima koje značajka zauzima u agregatu.

Nedovoljnost prosječne vrijednosti za iscrpnu karakterizaciju populacije čini nužnim dopuniti prosječne vrijednosti pokazateljima koji omogućuju procjenu tipičnosti tih prosjeka mjerenjem fluktuacije (varijacije) osobine koja se proučava. Korištenje ovih pokazatelja varijacije omogućuje da se statistička analiza učini potpunijom i sadržajnijom, a time i bolje razumijevanje suštine proučavanih društvenih pojava.

Najjednostavniji znakovi varijacije su minimum i maksimum - ovo je najmanja i najveća vrijednost obilježja u populaciji. Poziva se broj ponavljanja pojedinih varijanti vrijednosti značajki stopa ponavljanja. Označimo učestalost ponavljanja vrijednosti obilježja fi, zbroj učestalosti jednak volumenu proučavane populacije bit će:

gdje k- broj varijanti vrijednosti atributa. Prikladno je zamijeniti frekvencije frekvencijama - w.i. Frekvencija- pokazatelj relativne učestalosti - može se izraziti u dijelovima jedinice ili postotku i omogućuje vam usporedbu nizova varijacija s različitim brojem opažanja. Formalno imamo:

Za mjerenje varijacije svojstva koriste se različiti apsolutni i relativni pokazatelji. Apsolutni pokazatelji varijacije uključuju srednju linearnu devijaciju, raspon varijacije, varijancu, standardnu ​​devijaciju.

Varijacija raspona(R) je razlika između maksimalne i minimalne vrijednosti svojstva u proučavanoj populaciji: R= Xmax - Xmin. Ovaj pokazatelj daje samo najopćenitiju ideju o fluktuaciji osobine koja se proučava, jer pokazuje razliku samo između graničnih vrijednosti varijanti. Potpuno je nepovezan s frekvencijama u varijacijskom nizu, odnosno s prirodom distribucije, a njegova ovisnost može dati nestabilan, slučajan karakter samo od ekstremnih vrijednosti atributa. Raspon varijacije ne daje nikakve informacije o značajkama proučavanih populacija i ne dopušta nam procjenu stupnja tipičnosti dobivenih prosječnih vrijednosti. Opseg ovog pokazatelja ograničen je na prilično homogene populacije, točnije, karakterizira varijaciju svojstva, pokazatelj koji se temelji na uzimanju u obzir varijabilnosti svih vrijednosti svojstva.

Da bi se okarakterizirala varijacija osobine, potrebno je generalizirati odstupanja svih vrijednosti od bilo koje vrijednosti tipične za populaciju koja se proučava. Takvi pokazatelji

varijacije, kao što su srednja linearna devijacija, varijanca i standardna devijacija, temelje se na razmatranju odstupanja vrijednosti atributa pojedinih jedinica populacije od aritmetičke sredine.

Prosječno linearno odstupanje je aritmetička sredina apsolutnih vrijednosti odstupanja pojedinih opcija od njihove aritmetičke sredine:


Apsolutna vrijednost (modul) varijantnog odstupanja od aritmetičke sredine; f- frekvencija.

Prva formula se primjenjuje ako se svaka od opcija pojavljuje u agregatu samo jednom, a druga - u nizu s nejednakim frekvencijama.

Postoji još jedan način za izračunavanje prosjeka odstupanja opcija od aritmetičke sredine. Ova metoda, koja je vrlo česta u statistici, svodi se na izračunavanje kvadrata odstupanja opcija od srednje vrijednosti i njihovo usrednjavanje. U ovom slučaju dobivamo novi pokazatelj varijacije - varijancu.

Disperzija(σ 2) - prosjek kvadratnih odstupanja varijanti vrijednosti osobina od njihove prosječne vrijednosti:

Druga formula se koristi ako varijante imaju vlastite težine (ili učestalosti serije varijacija).

U ekonomskoj i statističkoj analizi uobičajeno je ocjenjivati ​​varijaciju atributa najčešće koristeći standardnu ​​devijaciju. Standardna devijacija(σ) je kvadratni korijen varijance:

Srednja linearna i srednja kvadratna odstupanja pokazuju koliko vrijednost atributa u prosjeku fluktuira za jedinice proučavane populacije, a izražene su u istim jedinicama kao i varijante.

U statističkoj praksi često postaje potrebno usporediti varijacije različitih obilježja. Na primjer, od velikog je interesa usporediti varijacije u dobi osoblja i njihovim kvalifikacijama, radnom stažu i plaćama itd. Za takve usporedbe pokazatelji apsolutne varijabilnosti znakova - prosječna linearna i standardna devijacija - nisu prikladni. . Nemoguće je, naime, usporediti fluktuaciju radnog staža, izraženu u godinama, s fluktuacijom plaća, izraženu u rubljama i kopejkama.

Pri usporedbi varijabilnosti raznih svojstava u agregatu zgodno je koristiti relativne pokazatelje varijabilnosti. Ovi se pokazatelji izračunavaju kao omjer apsolutnih pokazatelja i aritmetičke sredine (ili medijana). Koristeći kao apsolutni pokazatelj varijacije raspon varijacije, prosječnu linearnu devijaciju, standardnu ​​devijaciju, dobivaju se relativni pokazatelji fluktuacije:


Najčešće korišten pokazatelj relativne volatilnosti, koji karakterizira homogenost populacije. Skup se smatra homogenim ako koeficijent varijacije ne prelazi 33% za distribucije bliske normalnim.

Pretpostavimo da trebate pronaći prosječan broj dana za zadatke koje različiti zaposlenici moraju izvršiti. Ili želite izračunati vremenski interval od 10 godina prosječne temperature na određeni dan. Izračunavanje prosječne vrijednosti niza brojeva na više načina.

Srednja vrijednost je funkcija mjere središnje tendencije, koja je središte niza brojeva u statističkoj distribuciji. Tri najčešća kriterija za središnji trend su.

    Prosjek Aritmetička sredina izračunava se zbrajanjem niza brojeva, a zatim dijeljenjem broja tih brojeva. Na primjer, prosjek od 2, 3, 3, 5, 7 i 10 ima 30 podijeljeno sa 6, 5;

    Medijan Srednji broj niza brojeva. Polovica brojeva ima vrijednosti koje su veće od medijana, a polovica brojeva ima vrijednosti koje su manje od medijana. Na primjer, medijan od 2, 3, 3, 5, 7 i 10 je 4.

    Način rada Broj koji se najčešće pojavljuje u grupi brojeva. Na primjer, način rada 2, 3, 3, 5, 7 i 10 - 3.

Ove tri mjere središnje tendencije simetrične raspodjele niza brojeva su jedna te ista. U asimetričnoj raspodjeli niza brojeva oni mogu biti različiti.

Izračunajte prosječnu vrijednost ćelija koje se kontinuirano nalaze u jednom retku ili jednom stupcu

Učinite sljedeće.

Izračunavanje prosjeka raspršenih ćelija

Da biste izvršili ovaj zadatak, koristite funkciju PROSJEČAN. Kopirajte donju tablicu na prazan list.

Izračunavanje ponderiranog prosjeka

SUMPROIZVOD i iznose. Ovaj primjer izračunava prosječnu jediničnu cijenu plaćenu kroz tri kupnje, gdje se svaka kupnja odnosi na različit broj jedinica mjere po različitim jediničnim cijenama.

Kopirajte donju tablicu na prazan list.

Izračunavanje prosječne vrijednosti brojeva, zanemarujući nulte vrijednosti

Da biste izvršili ovaj zadatak, upotrijebite funkcije PROSJEČAN i ako. Kopirajte donju tablicu i imajte na umu da je u ovom primjeru, radi lakšeg razumijevanja, kopirajte na prazan list.