Biograafiad Omadused Analüüs

Usaldusvahemik. Usalduse tõenäosus

SAGEDUSTE JA MURUDE KINNITUSVÄLJAD

© 2008

Riiklik Rahvatervise Instituut, Oslo, Norra

Artiklis kirjeldatakse ja käsitletakse sageduste ja proportsioonide usaldusvahemike arvutamist Waldi, Wilsoni, Clopperi-Pearsoni meetodite abil, kasutades nurkteisendust ja Waldi meetodit Agresti - Coulli korrektsiooniga. Esitatud materjal annab üldist teavet sageduste ja proportsioonide usaldusvahemike arvutamise meetodite kohta ning on mõeldud ajakirja lugejates huvi äratamiseks mitte ainult usaldusvahemike kasutamise vastu oma uurimistöö tulemuste esitamisel, vaid ka erialakirjanduse lugemiseks enne tööle asumist. tulevaste väljaannete kohta.

Märksõnad: usaldusvahemik, sagedus, proportsioon

Üks varasematest väljaannetest mainis lühidalt kvalitatiivsete andmete kirjeldust ja teatas, et nende intervallhinnang on eelistatavam punkthinnangule, et kirjeldada uuritava tunnuse esinemissagedust populatsioonis. Tõepoolest, kuna uuringud tehakse valimiandmete põhjal, peab tulemuste projekteerimine üldkogumile sisaldama valimi koostamise ebatäpsuse elementi. Usaldusvahemik on hinnatava parameetri täpsuse mõõt. Huvitav on see, et mõned arstide põhistatistika raamatud ignoreerivad sageduste usaldusvahemike teemat täielikult. Selles artiklis vaatleme mitmeid viise sageduste usaldusvahemike arvutamiseks, mis viitavad sellistele valimiomadustele nagu mittekordus ja representatiivsus, aga ka vaatluste sõltumatus üksteisest. Käesolevas artiklis ei mõisteta sagedust mitte absoluutarvuna, mis näitab, mitu korda konkreetne väärtus agregaadis esineb, vaid suhtelise väärtusena, mis määrab uuringus osalejate osakaalu, kellel uuritav tunnus esineb.

Biomeditsiinilistes uuringutes kasutatakse kõige sagedamini 95% usaldusvahemikke. See usaldusvahemik on ala, mille sisse tegelik osakaal langeb 95% ajast. Teisisõnu võime 95% usaldusväärsusega väita, et tunnuse esinemissageduse tegelik väärtus populatsioonis jääb 95% usaldusvahemikku.

Enamik meditsiiniteadlaste statistika käsiraamatuid teatab, et sagedusviga arvutatakse valemi abil

kus p on tunnuse esinemise sagedus valimis (väärtus 0 kuni 1). Enamik kodumaiseid teadusartikleid näitab tunnuse esinemissagedust proovis (p), samuti selle viga (s) kujul p ± s. Siiski on sobivam esitada populatsioonis tunnuse esinemissageduse 95% usaldusvahemik, mis hõlmab väärtusi alates

enne.

Mõned juhendid soovitavad väikeste valimite puhul N – 1 vabadusastme puhul väärtus 1,96 asendada väärtusega t, kus N on vaatluste arv valimis. T väärtus leitakse t-jaotuse tabelitest, mis on saadaval peaaegu kõigis statistikaõpikutes. T-jaotuse kasutamine Waldi meetodi puhul ei anna nähtavaid eeliseid võrreldes teiste allpool käsitletud meetoditega ja seetõttu ei soovita seda mõned autorid.

Eespool esitatud meetodit sageduste või proportsioonide usaldusvahemike arvutamiseks nimetatakse Waldiks Abraham Waldi (1902–1950) auks, kuna selle laialdane kasutamine algas pärast Waldi ja Wolfowitzi avaldamist 1939. aastal. Meetodi enda pakkus aga välja Pierre Simon Laplace (1749–1827) juba 1812. aastal.

Waldi meetod on väga populaarne, kuid selle rakendamine on seotud märkimisväärsete probleemidega. Meetodit ei soovitata kasutada väikeste valimite puhul, samuti juhtudel, kui tunnuse esinemissagedus kipub olema 0 või 1 (0% või 100%) ning sageduste 0 ja 1 puhul on see lihtsalt võimatu. normaaljaotuse lähendus, mida kasutatakse vea arvutamisel, “ei tööta” juhtudel, kui n · p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Kuna uus muutuja on normaalse jaotusega, on muutuja φ 95% usaldusvahemiku alumine ja ülemine piir φ-1,96 ja φ+1,96 vasakult">

Väikeste valimite 1,96 asemel on N – 1 vabadusastmega soovitatav asendada t väärtus. See meetod ei anna negatiivseid väärtusi ja võimaldab sageduste usaldusvahemike täpsemaid hinnanguid kui Waldi meetod. Lisaks on seda kirjeldatud paljudes kodumaistes meditsiinistatistika teatmeteostes, mis aga ei ole toonud kaasa selle laialdast kasutamist meditsiiniuuringutes. Usaldusvahemike arvutamine nurkteisendusega ei ole soovitatav 0-le või 1-le lähenevate sageduste korral.

Siinkohal tavaliselt lõpeb usaldusvahemike hindamise meetodite kirjeldus enamikus arstiteadlastele mõeldud statistika aluste raamatutes ning see probleem on omane mitte ainult kodumaisele, vaid ka välismaisele kirjandusele. Mõlemad meetodid põhinevad keskpiiri teoreemil, mis tähendab suurt valimit.

Võttes arvesse puudusi usaldusvahemike hindamisel ülaltoodud meetodite abil, pakkusid Clopper ja Pearson 1934. aastal välja nn täpse usaldusvahemiku arvutamise meetodi, võttes arvesse uuritava tunnuse binoomjaotust. See meetod on saadaval paljudes veebikalkulaatorites, kuid sel viisil saadud usaldusvahemikud on enamasti liiga laiad. Samas on seda meetodit soovitatav kasutada juhtudel, kui on vajalik konservatiivne hindamine. Meetodi konservatiivsus suureneb valimi suuruse vähenemisel, eriti kui N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Paljude statistikute sõnul viiakse sageduste usaldusvahemike kõige optimaalsem hindamine läbi Wilsoni meetodi abil, mis pakuti välja juba 1927. aastal, kuid mida kodumaistes biomeditsiinilistes uuringutes praktiliselt ei kasutatud. See meetod mitte ainult ei võimalda hinnata usaldusvahemikke nii väga väikeste kui ka väga suurte sageduste jaoks, vaid on rakendatav ka väikese arvu vaatluste jaoks. Üldiselt on Wilsoni valemile vastaval usaldusvahemikul vorm



kus 95% usaldusvahemiku arvutamisel saab väärtuseks 1,96, N on vaatluste arv ja p on tunnuse esinemise sagedus valimis. See meetod on saadaval veebikalkulaatorites, seega pole selle kasutamine problemaatiline. ja ei soovita seda meetodit kasutada n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Arvatakse, et lisaks Wilsoni meetodile annab Agresti-Colli korrektsiooniga Waldi meetod ka sageduste usaldusvahemiku optimaalse hinnangu. Agresti-Colli parandus on Waldi valemis valimi tunnuse esinemissageduse (p) asendamine p`ga, mille arvutamisel lisatakse lugejale 2 ja nimetajale 4, see tähendab, p` = (X + 2) / (N + 4), kus X on uuringus osalejate arv, kellel on uuritav tunnus, ja N on valimi suurus. See modifikatsioon annab Wilsoni valemiga väga sarnased tulemused, välja arvatud juhul, kui sündmuste sagedus läheneb 0% või 100% ja valim on väike. Lisaks ülaltoodud sageduste usaldusintervallide arvutamise meetoditele on väikeste valimite jaoks välja pakutud pidevuse parandused nii Waldi kui ka Wilsoni meetodi jaoks, kuid uuringud on näidanud, et nende kasutamine on sobimatu.

Vaatleme ülaltoodud meetodite rakendamist usaldusvahemike arvutamiseks kahe näite abil. Esimesel juhul uurime suurt valimit 1000 juhuslikult valitud uuringus osalejast, kellest 450-l on uuritav tunnus (see võib olla riskitegur, tulemus või mis tahes muu tunnus), mis esindab sagedust 0,45 või 45 %. Teisel juhul viiakse uuring läbi väikese valimiga, näiteks ainult 20 inimesega, ja ainult ühel uuringus osalejal (5%) on uuritav tunnus. Usaldusintervallid, kasutades Waldi meetodit, Waldi meetodit Agresti-Colli korrektsiooniga ja Wilsoni meetodit, arvutati Jeff Sauro välja töötatud veebikalkulaatori abil (http://www. /wald. htm). Wilsoni järjepidevuskorrigeeritud usaldusvahemikud arvutati kalkulaatori abil, mille pakub Wassar Stats: Web Site for Statistical Computation (http://faculty.vassar.edu/lowry/prop1.html). Angular Fisheri teisenduse arvutused viidi läbi käsitsi, kasutades kriitilist t väärtust vastavalt 19 ja 999 vabadusastme jaoks. Mõlema näite arvutustulemused on toodud tabelis.

Usaldusvahemikud arvutatud kahel tekstis kirjeldatud näitel kuuel erineval viisil

Usaldusintervalli arvutamise meetod

P=0,0500 ehk 5%

95% CI, kui X = 450, N = 1000, P = 0,4500 või 45%

–0,0455–0,2541

Wald Agresti–Colli korrektsiooniga

<,0001–0,2541

Wilson koos järjepidevuse korrektsiooniga

Clopper-Pearson "täpne meetod"

Nurga teisendus

<0,0001–0,1967

Nagu tabelist näha, siseneb esimese näite puhul "üldtunnustatud" Waldi meetodil arvutatud usaldusvahemik negatiivsesse piirkonda, mis sageduste puhul nii ei kehti. Kahjuks pole sellised juhtumid vene kirjanduses haruldased. Traditsiooniline andmete esitamise viis sageduse ja selle vea osas varjab seda probleemi osaliselt. Näiteks kui tunnuse esinemissagedus (protsentides) on esitatud kui 2,1 ± 1,4, siis see ei ole nii "silmale solvav" kui 2,1% (95% CI: –0,7; 4,9), kuigi ja tähendab sama asi. Waldi meetod koos Agresti-Colli parandusega ja nurkteisendusega arvutamine annab alampiiri, mis kaldub nulli. Wilsoni järjepidevuskorrigeeritud meetod ja "täpne meetod" toodavad laiemaid usaldusvahemikke kui Wilsoni meetod. Teise näite puhul annavad kõik meetodid ligikaudu ühesugused usaldusvahemikud (erinevused ilmnevad vaid tuhandikes), mis pole üllatav, kuna sündmuse esinemissagedus ei erine selles näites palju 50% ja valimi suurus on üsna suur.

Lugejatele, keda see probleem huvitab, saame soovitada R. G. Newcombe’i ja Browni, Cai ja Dasgupta töid, mis pakuvad plusse ja miinuseid vastavalt 7 ja 10 erineva usaldusintervalli arvutamise meetodi kasutamisele. Kodumaistest käsiraamatutest soovitame raamatut ja mis lisaks teooria üksikasjalikule kirjeldusele esitab Waldi ja Wilsoni meetodid, samuti binoomsagedusjaotust arvestades usaldusintervallide arvutamise meetodit. Lisaks tasuta veebikalkulaatoritele (http://www. /wald. htm ja http://faculty. vassar. edu/lowry/prop1.html) saab sageduste (ja mitte ainult!) usaldusvahemikke arvutada, kasutades CIA programm ( Confidence Intervals Analysis), mille saab alla laadida aadressilt http://www. meditsiinikool. soton. ac. uk/cia/ .

Järgmises artiklis käsitletakse kvalitatiivsete andmete võrdlemise ühemõõtmelisi viise.

Bibliograafia

Banerji A. Meditsiinistatistika selges keeles: sissejuhatav kursus / A. Banerjee. – M.: Praktiline meditsiin, 2007. – 287 lk. Meditsiinistatistika / . – M.: Meditsiiniinfo Agentuur, 2007. – 475 lk. Glanz S. Meditsiiniline ja bioloogiline statistika / S. Glanz. – M.: Praktika, 1998. Andmetüübid, leviku testimine ja kirjeldav statistika // Inimökoloogia – 2008. – Nr 1. – Lk 52–58. Zhizhin K.S.. Meditsiinistatistika: õpik / . – Rostov n/d: Phoenix, 2007. – 160 lk. Rakendusmeditsiiniline statistika / , . - Peterburi. : Foliot, 2003. – 428 lk. Lakin G.F.. Biomeetria / . – M.: Kõrgkool, 1990. – 350 lk. Arst V. A. Matemaatiline statistika meditsiinis / , . – M.: Rahandus ja statistika, 2007. – 798 lk. Matemaatiline statistika kliinilistes uuringutes / , . – M.: GEOTAR-MED, 2001. – 256 lk. Junkerov V. JA. Meditsiiniuuringute andmete meditsiiniline ja statistiline töötlemine / , . - Peterburi. : VmedA, 2002. – 266 lk. Agresti A. Ligikaudne on parem kui täpne binoomproportsioonide intervallide hindamiseks / A. Agresti, B. Coull // Ameerika statistik. – 1998. – N 52. – Lk 119–126. Altman D. Kindel statistika // D. Altman, D. Machin, T. Bryant, M. J. Gardner. – London: BMJ Books, 2000. – 240 lk. Pruun L.D. Intervall estimation for a binomial ratio / L. D. Brown, T. T. Cai, A. Dasgupta // Statistikateadus. – 2001. – N 2. – Lk 101–133. Clopper C. J. Usaldusväärsuse või usalduspiiride kasutamine, mis on illustreeritud binoomnumbri puhul / C. J. Clopper, E. S. Pearson // Biometrika. – 1934. – N 26. – Lk 404–413. Garcia-Perez M. A. Binoomparameetri usaldusvahemikust / M. A. Garcia-Perez // Kvaliteet ja kvantiteet. – 2005. – N 39. – Lk 467–481. Motulsky H. Intuitiivne biostatistika // H. Motulsky. – Oxford: Oxford University Press, 1995. – 386 lk. Newcombe R.G. Kahepoolsed usaldusintervallid ühe proportsiooni jaoks: seitsme meetodi võrdlus / R. G. Newcombe // Meditsiini statistika. – 1998. – N. 17. – Lk 857–872. Sauro J. Valmimismäärade hindamine väikestest valimitest binoomsete usaldusvahemike abil: võrdlused ja soovitused / J. Sauro, J. R. Lewis // Proceedings of the human factor and ergonomics Society aastakoosolek. – Orlando, Florida, 2005. Wald A. Pidevate jaotusfunktsioonide usalduspiirid // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. – 1939. – N 10. – Lk 105–118. Wilson E.B. Tõenäoline järeldus, pärimisseadus ja statistiline järeldus / E. B. Wilson // Journal of American Statistical Association. – 1927. – N 22. – Lk 209–212.

PROPORTSIOONIDE KONFIDENTSIAALID

A. M. Grjibovski

Riiklik Rahvatervise Instituut, Oslo, Norra

Artiklis esitatakse mitmed meetodid binoomproportsioonide usaldusvahemike arvutamiseks, nimelt Waldi, Wilsoni, arcsiini, Agresti-Coulli ja täpsed Clopper-Pearsoni meetodid. Töö annab ainult üldise sissejuhatuse binoomproportsiooni usaldusintervalli hindamise probleemile ja selle eesmärk ei ole mitte ainult ärgitada lugejaid kasutama usaldusvahemikke omaenda empiirilise uurimistöö tulemuste esitamisel, vaid ka julgustada neid statistikaraamatuid uurima. enne enda andmete analüüsimist ja käsikirjade koostamist.

Võtmesõnad: usaldusvahemik, proportsioon

Kontaktinfo:

Oslo, Norra riikliku rahvatervise instituudi vanemnõunik

Intelligentsus ei seisne ainult teadmistes, vaid ka oskuses teadmisi praktikas rakendada. (Aristoteles)

Usaldusintervallid

üldine ülevaade

Võttes populatsioonist valimi, saame huvipakkuva parameetri punkthinnangu ja arvutame hinnangu täpsuse näitamiseks standardvea.

Kuid enamikul juhtudel ei ole standardviga kui selline vastuvõetav. Palju kasulikum on kombineerida see täpsusmõõt populatsiooni parameetri intervallhinnanguga.

Seda saab teha kasutades teadmisi valimistatistika (parameetri) teoreetilise tõenäosusjaotuse kohta, et arvutada parameetri usaldusvahemik (CI – usaldusvahemik, CI – usaldusvahemik).

Üldiselt pikendab usaldusvahemik hinnanguid mõlemas suunas (antud parameetri) standardvea teatud kordse võrra; intervalli määravad kaks väärtust (usalduspiirid) eraldatakse tavaliselt komaga ja on sulgudes.

Keskmise usaldusvahemik

Tavajaotuse kasutamine

Valimi keskmine jaotub normaalselt, kui valimi suurus on suur, nii et saate kasutada teadmisi normaaljaotuse kohta valimi keskmise arvestamisel.

Täpsemalt, 95% valimi keskmiste jaotusest on 1,96 standardhälbe (SD) piires populatsiooni keskmisest.

Kui meil on ainult üks valim, nimetame seda keskmise standardveaks (SEM) ja arvutame keskmise 95% usaldusvahemiku järgmiselt:

Kui kordame seda katset mitu korda, sisaldab see intervall tegelikku populatsiooni keskmist 95% ajast.

Tavaliselt on see usaldusvahemik, näiteks väärtuste intervall, mille sees on tegelik populatsiooni keskmine (üldkeskmine) 95% usalduse tõenäosusega.

Kuigi usaldusvahemiku sel viisil tõlgendamine ei ole täiesti range (populatsiooni keskmine on fikseeritud väärtus ja seetõttu ei saa sellega seostada tõenäosust), on seda mõisteliselt lihtsam mõista.

Kasutamine t- levitamine

Normaaljaotust saate kasutada, kui teate üldkogumi dispersiooni väärtust. Samuti, kui valimi suurus on väike, järgib valimi keskmine normaaljaotust, kui aluseks olevad populatsiooni andmed on normaalselt jaotunud.

Kui populatsiooni aluseks olevad andmed ei ole normaalselt jaotunud ja/või populatsiooni dispersioon on teadmata, järgib valimi keskmine Tudengi t-jaotus.

Arvutame üldpopulatsiooni keskmise 95% usaldusvahemiku järgmiselt:

Kus on protsendipunkt (protsentiil) t- Studenti t jaotus (n-1) vabadusastmega, mis annab kahepoolseks tõenäosuseks 0,05.

Üldiselt pakub see laiemat vahemikku kui normaaljaotuse kasutamine, kuna see võtab arvesse üldkogumi standardhälbe hindamisel ja/või valimi väikesest suurusest tulenevat täiendavat ebakindlust.

Kui valimi suurus on suur (suurusjärgus 100 või rohkem), on kahe jaotuse erinevus ( t-üliõpilane ja normaalne) on ebaoluline. Siiski kasutavad nad alati t- jaotus usaldusvahemike arvutamisel, isegi kui valimi suurus on suur.

Tavaliselt teatatakse 95% usaldusvahemikust. Arvutada saab muid usaldusvahemikke, näiteks 99% CI keskmise jaoks.

Standardvea ja tabeli väärtuse korrutise asemel t- jaotus, mis vastab kahepoolsele tõenäosusele 0,05, korrutage see (standardviga) väärtusega, mis vastab kahepoolsele tõenäosusele 0,01. See on laiem usaldusvahemik kui 95% usaldusvahemik, kuna see peegeldab suurenenud usaldust, et intervall sisaldab tegelikult üldkogumi keskmist.

Proportsiooni usaldusvahemik

Proportsioonide valimijaotusel on binoomjaotus. Kui aga valimi suurus n on suhteliselt suur, siis on proportsiooni valimijaotus ligikaudu normaalne keskmisega .

Hindame valikulise suhte järgi p=r/n(Kus r- meid huvitavate iseloomulike tunnustega valimisse kuuluvate isendite arv ja standardviga on hinnanguliselt:

Proportsiooni 95% usaldusvahemik on hinnanguliselt järgmine:

Kui valimi suurus on väike (tavaliselt siis, kui n.p. või n(1-p) vähem 5 ), siis on täpsete usaldusvahemike arvutamiseks vaja kasutada binoomjaotust.

Pange tähele, et kui lk väljendatuna protsentides (1-p) asendatud (100 p).

Usaldusvahemike tõlgendamine

Usaldusvahemiku tõlgendamisel huvitavad meid järgmised küsimused:

Kui lai on usaldusvahemik?

Lai usaldusvahemik näitab, et hinnang on ebatäpne; kitsas näitab täpset hinnangut.

Usaldusvahemiku laius oleneb standardvea suurusest, mis omakorda sõltub valimi suurusest ning numbrilise muutuja puhul annab andmete varieeruvus laiemad usaldusvahemikud kui suure vähestest muutujatest koosneva andmekogumi uuringud. .

Kas CI sisaldab mingeid erilist huvi pakkuvaid väärtusi?

Saate kontrollida, kas populatsiooni parameetri tõenäoline väärtus jääb usaldusvahemikku. Kui jah, on tulemused selle tõenäolise väärtusega kooskõlas. Kui ei, siis on ebatõenäoline (95% usaldusvahemiku korral on tõenäosus peaaegu 5%), et parameetril on see väärtus.

Usaldusvahemik– statistilise suuruse piirväärtused, mis antud usaldustõenäosusega γ jäävad suurema mahu proovide võtmisel sellesse intervalli. Tähistatakse kui P(θ - ε. Praktikas valitakse usaldustõenäosus γ üsna ühtsusele lähedaste väärtuste hulgast: γ = 0,9, γ = 0,95, γ = 0,99.

Teenuse eesmärk. Seda teenust kasutades saate kindlaks teha:

  • üldkeskmise usaldusvahemik, dispersiooni usaldusvahemik;
  • standardhälbe usaldusvahemik, üldaktsia usaldusvahemik;
Saadud lahendus salvestatakse Wordi faili (vt näidet). Allpool on videojuhend algandmete täitmiseks.

Näide nr 1. Kolhoosis tehti 1000-pealisest lambakarjast valikuline kontrollpügamine 100-le. Selle tulemusel määrati lamba keskmine villalõikus 4,2 kg. Määrake tõenäosusega 0,99 valimi keskmine ruutviga lamba keskmise villa lõikamise määramisel ja piirväärtused, mille piires on lõikeväärtus, kui dispersioon on 2,5. Näidis ei ole korduv.
Näide nr 2. Moskva Põhjatolli postis asuvast importtoodete partiist võeti pistelise kordusproovi teel 20 toote “A” proovi. Katse tulemusena tehti kindlaks toote “A” keskmine niiskusesisaldus proovis, mis osutus 1% standardhälbega võrdseks 6%.
Määrake tõenäosusega 0,683 toote keskmise niiskusesisalduse piirid kogu imporditud tootepartiis.
Näide nr 3. 36 üliõpilase seas läbi viidud küsitlus näitas, et nende poolt loetud õpikute keskmine arv õppeaasta jooksul oli 6. Kui eeldada, et üliõpilase poolt loetud õpikute arv semestris on normaaljaotusseadusega, mille standardhälve on 6, leia : A) selle juhusliku suuruse matemaatilise ootuse usaldusväärsusega 0,99 intervallhinnangut; B) Millise tõenäosusega võib väita, et selle valimi põhjal arvutatud õpikute keskmine arv, mida õpilase loeb semestris, kaldub absoluutväärtuses matemaatilisest ootusest kõrvale mitte rohkem kui 2 võrra.

Usaldusvahemike klassifikatsioon

Hinnatava parameetri tüübi järgi:

Proovi tüübi järgi:

  1. Usaldusvahemik lõpmatu valimi jaoks;
  2. lõpliku proovi usaldusvahemik;
Valimit nimetatakse resamplinguks, kui valitud objekt tagastatakse üldkogumisse enne järgmise valimist. Näidist nimetatakse mittekorduvaks, kui valitud objekti populatsiooni ei tagastata. Praktikas tegeleme tavaliselt mittekorduvate proovidega.

Juhusliku valimi keskmise valimivea arvutamine

Valimist saadud näitajate väärtuste ja üldkogumi vastavate parameetrite lahknevust nimetatakse esindusviga.
Üld- ja näidispopulatsioonide põhiparameetrite tähistused.
Keskmise valimi vea valemid
uuesti valikmittekorduv valik
keskmiseksjagamisekskeskmiseksjagamiseks
Suhe diskreetimisvea piiri (Δ) vahel on teatud tõenäosusega garanteeritud Р(t), ja keskmine diskreetimisviga on kujul: või Δ = t·μ, kus t– usalduskoefitsient, mis määratakse sõltuvalt tõenäosustasemest P(t) vastavalt Laplace'i integraalfunktsiooni tabelile.

Valemid valimi suuruse arvutamiseks puhtjuhusliku valimi meetodil

Statistikas on kahte tüüpi hinnanguid: punkt ja intervall. Punktide hinnang on ühe valimi statistika, mida kasutatakse populatsiooni parameetri hindamiseks. Näiteks valimi keskmine on üldkogumi matemaatilise ootuse ja valimi dispersiooni punkthinnang S 2- populatsiooni dispersiooni punkthinnang σ 2. on näidatud, et valimi keskmine on üldkogumi matemaatilise ootuse erapooletu hinnang. Valimi keskmist nimetatakse erapooletuks, kuna kõigi valimi keskmiste keskmine (sama valimi suurusega) n) on võrdne üldkogumi matemaatilise ootusega.

Et valimi dispersioon S 2 sai populatsiooni dispersiooni erapooletuks hinnanguks σ 2, tuleks valimi dispersiooni nimetaja määrata võrdseks n – 1 , kuid mitte n. Teisisõnu on üldkogumi dispersioon kõigi võimalike valimi dispersioonide keskmine.

Populatsiooni parameetrite hindamisel tuleb meeles pidada, et näidisstatistika nagu , sõltuvad konkreetsetest näidistest. Et seda asjaolu arvesse võtta, saada intervalli hindamineüldkogumi matemaatilist ootust, analüüsida valimi keskmiste jaotust (vt täpsemalt). Konstrueeritud intervalli iseloomustab teatud usaldustase, mis näitab tõenäosust, et tegelik populatsiooni parameeter on õigesti hinnatud. Sarnaseid usaldusvahemikke saab kasutada tunnuse osakaalu hindamiseks R ja elanikkonna peamine hajutatud mass.

Laadige märkus alla või vormingus, näited vormingus

Teadaoleva standardhälbega üldkogumi matemaatilise ootuse usaldusvahemiku konstrueerimine

Usaldusvahemiku konstrueerimine tunnuse osakaalule üldkogumis

See jaotis laiendab usaldusvahemiku mõistet kategoorilistele andmetele. See võimaldab hinnata tunnuse osakaalu populatsioonis R kasutades näidisjagamist RS= X/n. Nagu märgitud, kui kogused nR Ja n(1 – p)ületada arvu 5, saab binoomjaotust lähendada normaalseks. Seetõttu hinnata tunnuse osakaalu populatsioonis R on võimalik konstrueerida intervall, mille usaldusnivoo on võrdne (1 – α)х100%.


Kus lkS- tunnuse valimi osakaal on võrdne X/n, st. õnnestumiste arv jagatud valimi suurusega, R- tunnuse osatähtsus üldpopulatsioonis, Z- standardiseeritud normaaljaotuse kriitiline väärtus, n- näidissuurus.

Näide 3. Oletame, et infosüsteemist võetakse välja valim, mis koosneb 100 viimase kuu jooksul täidetud arvest. Ütleme nii, et 10 neist arvetest olid koostatud vigadega. Seega R= 10/100 = 0,1. 95% usaldusnivoo vastab kriitilisele väärtusele Z = 1,96.

Seega on tõenäosus, et 4,12–15,88% arvetest sisaldab vigu, 95%.

Antud valimi suuruse korral näib tunnuse osakaalu populatsioonis sisaldav usaldusvahemik laiem kui pideva juhusliku muutuja puhul. Seda seetõttu, et pideva juhusliku suuruse mõõtmised sisaldavad rohkem teavet kui kategooriliste andmete mõõtmised. Teisisõnu, kategoorilised andmed, mis võtavad ainult kahte väärtust, ei sisalda nende jaotuse parameetrite hindamiseks piisavalt teavet.

INpiiratud populatsioonist eraldatud hinnangute arvutamine

Matemaatilise ootuse hindamine. Lõpliku üldkogumi parandustegur ( fpc) kasutati standardvea vähendamiseks teguri võrra. Populatsiooniparameetrite hinnangute usaldusvahemike arvutamisel rakendatakse parandustegurit olukordades, kus valimid koostatakse ilma tagastamata. Seega on matemaatilise ootuse usaldusvahemik, mille usaldusnivoo on võrdne (1 – α)х100%, arvutatakse järgmise valemiga:

Näide 4. Illustreerimaks parandusteguri kasutamist piiratud üldkogumi puhul, pöördume tagasi keskmise arvete summa usaldusvahemiku arvutamise probleemi juurde, mida käsitleti eespool näites 3. Oletame, et ettevõte väljastab 5000 arvet kuus ja = 110,27 dollarit, S= 28,95 dollarit N = 5000, n = 100, α = 0,05, t 99 = 1,9842. Kasutades valemit (6) saame:

Objekti osakaalu hinnang. Kui valite ilma tagastamiseta, siis selle atribuudi osa usaldusvahemik, mille usaldusnivoo on võrdne (1 – α)х100%, arvutatakse järgmise valemiga:

Usaldusintervallid ja eetilised probleemid

Üldkogumi valimi moodustamisel ja statistiliste järelduste tegemisel kerkivad sageli esile eetilised probleemid. Peamine on see, kuidas langevad kokku valimistatistika usaldusvahemikud ja punkthinnangud. Punktide hinnangute avaldamine ilma seotud usaldusvahemike (tavaliselt 95% usaldustasemel) ja valimi suurust, millest need tuletatakse, täpsustamata võib tekitada segadust. See võib jätta kasutajale mulje, et punkthinnang on täpselt see, mida ta vajab, et ennustada kogu populatsiooni omadusi. Seega tuleb mõista, et igas uurimuses ei tohiks keskenduda punkthinnangutele, vaid intervallhinnangutele. Lisaks tuleks erilist tähelepanu pöörata valimi suuruse õigele valikule.

Enamasti on statistilise manipuleerimise objektid teatud poliitilistel teemadel läbi viidud elanikkonna sotsioloogiliste uuringute tulemused. Samal ajal avaldatakse uuringutulemused ajalehtede esikülgedel ning valimiviga ja statistilise analüüsi metoodika kusagil keskel. Saadud punkthinnangute paikapidavuse tõestamiseks on vaja ära märkida nende saamise aluseks olnud valimi suurus, usaldusvahemiku piirid ja selle olulisuse tase.

Järgmine märkus

Kasutatakse materjale raamatust Levin et al. – M.: Williams, 2004. – Lk. 448–462

Keskpiiri teoreem väidab, et piisavalt suure valimi suuruse korral saab keskmiste valimijaotust lähendada normaaljaotusega. See omadus ei sõltu populatsiooni jaotuse tüübist.

"Katren-Style" jätkab Konstantin Kravchiku meditsiinistatistika sarja avaldamist. Kahes varasemas artiklis tegeles autor selliste mõistete nagu ja selgitamisega.

Konstantin Kravtšik

Matemaatik-analüütik. Meditsiini ja humanitaarteaduste statistiliste uuringute spetsialist

Moskva linn

Väga sageli leiate kliinilisi uuringuid käsitlevatest artiklitest salapärase fraasi: "usaldusvahemik" (95 % CI või 95 % CI - usaldusvahemik). Näiteks võidakse artiklis kirjutada: „Erinevuste olulisuse hindamiseks kasutati 95 % usaldusvahemiku arvutamiseks Studenti t-testi.”

Mis on “95 % usaldusvahemiku” väärtus ja miks seda arvutada?

Mis on usaldusvahemik? - See on vahemik, mille sees asub tegelik rahvaarv. Kas on "valed" keskmised? Mõnes mõttes jah. Selgitasime, et huvipakkuvat parameetrit on võimatu mõõta kogu populatsioonis, seega on teadlased rahul piiratud valimiga. Selles valimis (näiteks kehakaalu alusel) on üks keskmine väärtus (teatud kaal), mille järgi hindame keskmist väärtust kogu populatsioonis. Siiski on ebatõenäoline, et valimi (eriti väikese) keskmine kaal langeb kokku üldpopulatsiooni keskmise kaaluga. Seetõttu on õigem arvutada ja kasutada elanikkonna keskmiste väärtuste vahemikku.

Näiteks kujutage ette, et hemoglobiini 95% usaldusvahemik (95% CI) on 110–122 g/l. See tähendab, et 95% tõenäosusega on tegelik keskmine hemoglobiini väärtus populatsioonis vahemikus 110–122 g/l. Teisisõnu, me ei tea populatsiooni keskmist hemoglobiini väärtust, kuid me saame 95% tõenäosusega näidata selle tunnuse väärtuste vahemikku.

Usaldusvahemikud on eriti olulised rühmade vaheliste keskmiste erinevuste või efektide suuruse, nagu neid nimetatakse, puhul.

Oletame, et võrdlesime kahe rauapreparaadi efektiivsust: ühe, mis on olnud turul pikka aega ja seda, mis on äsja registreeritud. Pärast ravikuuri hindasime uuritud patsientide rühmade hemoglobiini kontsentratsiooni ja statistilise programmiga arvutati, et kahe rühma keskmiste väärtuste erinevus oli 95 % tõenäosusega vahemikus 1,72 kuni 14,36 g/l (tabel 1).

Tabel 1. Testige sõltumatute proovide jaoks
(rühmi võrreldakse hemoglobiini taseme järgi)

Seda tuleks tõlgendada järgmiselt: mõnel üldpopulatsioonis uut ravimit kasutavatel patsientidel on hemoglobiin keskmiselt 1,72–14,36 g/l kõrgem kui neil, kes võtsid juba tuntud ravimit.

Teisisõnu, üldpopulatsioonis on hemoglobiini keskmiste väärtuste erinevus rühmade vahel nendes piirides 95% tõenäosusega. Seda, kas seda on palju või vähe, otsustab uurija. Selle kõige mõte seisneb selles, et me ei tööta ühe keskmise väärtusega, vaid väärtuste vahemikuga, seega hindame usaldusväärsemalt parameetrite erinevust rühmade vahel.

Statistikapakettides saate teadlase äranägemisel usaldusvahemiku piire iseseisvalt kitsendada või laiendada. Usaldusvahemiku tõenäosusi vähendades kitsendame keskmiste vahemikku. Näiteks 90 % CI juures on keskmiste vahemik (või keskmiste erinevus) kitsam kui 95 % juures.

Vastupidi, tõenäosuse suurendamine 99 %-ni laiendab väärtuste vahemikku. Rühmade võrdlemisel võib CI alumine piir ületada nullmärgi. Näiteks kui laiendasime usaldusvahemiku piire 99 %-ni, siis jäid intervalli piirid vahemikku –1 kuni 16 g/l. See tähendab, et üldpopulatsioonis on rühmi, mille keskmiste erinevus uuritava tunnuse puhul on 0 (M = 0).

Usaldusvahemikku kasutades saate testida statistilisi hüpoteese. Kui usaldusvahemik ületab nullväärtust, siis nullhüpotees, mis eeldab, et rühmad ei erine uuritava parameetri osas, on tõene. Eespool on kirjeldatud näidet, kus me laiendasime piire 99% -ni. Kuskilt üldpopulatsioonist leidsime rühmi, mis ei erinenud millegi poolest.

95% hemoglobiini erinevuse usaldusvahemik (g/l)


Joonisel on näidatud kahe rühma vahelise hemoglobiini keskmiste väärtuste erinevuse 95% usaldusvahemik. Joon läbib nullmärki, seetõttu on nulli keskmiste vahel erinevus, mis kinnitab nullhüpoteesi, et rühmad ei erine. Rühmade vaheline erinevus on –2 kuni 5 g/l. See tähendab, et hemoglobiin võib langeda 2 g/l või tõusta 5 g/l võrra.

Usaldusvahemik on väga oluline näitaja. Tänu sellele on näha, kas erinevused rühmades olid tõesti tingitud keskmiste erinevusest või suurest valimist, kuna suure valimi puhul on erinevuste leidmise võimalus suurem kui väikese valimi puhul.

Praktikas võib see välja näha selline. Võtsime 1000 inimesest koosneva proovi, mõõtsime hemoglobiinitaset ja leidsime, et keskmiste erinevuse usaldusvahemik jäi vahemikku 1,2–1,5 g/l. Statistilise olulisuse tase sellel lk

Näeme, et hemoglobiini kontsentratsioon tõusis, kuid peaaegu märkamatult, seetõttu ilmnes statistiline olulisus just tänu valimi suurusele.

Usaldusvahemikke saab arvutada mitte ainult keskmiste, vaid ka proportsioonide (ja riskisuhete) järgi. Näiteks huvitab meid väljatöötatud ravimi võtmise ajal remissiooni saavutanud patsientide osakaalu usaldusvahemik. Oletame, et proportsioonide, st selliste patsientide osakaalu 95 % CI jääb vahemikku 0,60–0,80. Seega võib öelda, et meie ravimil on terapeutiline toime 60–80 % juhtudest.