Какъв термин се отнася до надеждността на статистическата информация. Вижте какво е "статистическа надеждност" в други речници

Основните характеристики на всяка връзка между променливите.

Две от най-простите свойства на връзката между променливите могат да бъдат отбелязани: (а) величината на връзката и (б) надеждността на връзката.

- Стойност . Големината на зависимостта е по-лесна за разбиране и измерване от надеждността. Например, ако някой мъж в пробата има по-висок брой бели кръвни клетки (WCC) от всяка жена, тогава можете да кажете, че връзката между двете променливи (Пол и WCC) е много висока. С други думи, можете да предвидите стойностите на една променлива от стойностите на друга.

- Надеждност ("истина"). Надеждността на взаимозависимостта е по-малко визуална концепция от степента на зависимост, но е изключително важна. Достоверността на зависимостта е пряко свързана с представителността на определена извадка, въз основа на която се правят изводи. С други думи, надеждността се отнася до това колко вероятно е връзката да бъде преоткрита (с други думи, потвърдена) върху данни от друга извадка, взета от същата популация.

Трябва да се помни, че крайната цел почти никога не е изследването на тази конкретна извадка от ценности; една извадка представлява интерес само дотолкова, доколкото предоставя информация за цялата популация. Ако изследването отговаря на някои специални критерии, тогава надеждността на установените връзки между променливите на извадката може да бъде количествено определена и представена с помощта на стандартна статистическа мярка.

Големината на зависимостта и надеждността представляват две различни характеристики на зависимостите между променливите. Не може обаче да се каже, че са напълно независими. Колкото по-голяма е връзката (връзката) между променливите в извадка с нормален размер, толкова по-надеждна е тя (вижте следващия раздел).

Статистическата значимост на даден резултат (p-ниво) е оценена мярка за доверие в неговата „истина“ (в смисъл на „представителност на извадката“). По-технически, p-стойността е мярка, която има намаляваща връзка с надеждността на резултата. По-високото p-ниво съответства на по-ниско ниво на доверие във връзката между променливите, открити в извадката. А именно, p-нивото представлява вероятността за грешка, свързана с разпределението на наблюдавания резултат към цялата популация.

Например, p-ниво = 0,05(т.е. 1/20) показва, че има 5% шанс връзката между променливите, открити в извадката, да е само случайна характеристика на тази извадка. В много проучвания p-ниво от 0,05 се счита за "приемлива граница" за нивото на грешка.

Няма начин да се избегне произволът при вземането на решение кое ниво на значимост наистина трябва да се счита за „значимо“. Изборът на определено ниво на значимост, над което резултатите се отхвърлят като неверни, е доста произволен.

На практика крайното решение обикновено зависи от това дали резултатът е предсказан a priori (т.е. преди провеждането на експеримента) или е открит a posteriori в резултат на много анализи и сравнения, направени с много данни, както и от традиция, която съществува в тази област на изследване.

Обикновено в много области резултат от p .05 е приемлива граница на статистическа значимост, но трябва да се помни, че това ниво все още включва доста голяма вероятност за грешка (5%).

Резултатите, значими при p .01, обикновено се считат за статистически значими, докато резултатите при p .005 или p . 001 като много значим. Трябва обаче да се разбере, че тази класификация на нивата на значимост е доста произволна и е само неофициална конвенция, базирана на практически опит. в определена област на обучение.

Ясно е, че колкото по-голям брой анализи ще бъдат извършени с набора от събрани данни, толкова по-голям брой значими (на избраното ниво) резултати ще бъдат открити чисто случайно.

Някои статистически методи, които включват много сравнения и следователно имат значителен шанс за повторение на този вид грешка, правят специална корекция или корекция за общия брой сравнения. Въпреки това, много статистически методи (особено прости методи за проучвателен анализ на данни) не предлагат никакъв начин за решаване на този проблем.

Ако връзката между променливите е "обективно" слаба, тогава няма друг начин да се тества такава връзка, освен чрез изследване на голяма извадка. Дори ако извадката е напълно представителна, ефектът няма да бъде статистически значим, ако извадката е малка. По същия начин, ако една връзка е "обективно" много силна, тогава тя може да бъде открита с висока степен на значимост дори в много малка извадка.

Колкото по-слаба е връзката между променливите, толкова по-голяма е извадката, необходима за значителното й откриване.

Много различни връзки между променливите. Изборът на определена мярка в конкретно изследване зависи от броя на променливите, използваните измервателни скали, характера на зависимостите и т.н.

Повечето от тези мерки обаче следват общ принцип: те се опитват да оценят наблюдаваната връзка, като я сравнят с "максималната възможна връзка" между разглежданите променливи. Технически погледнато, обичайният начин за правене на такива оценки е да се разгледа как варират стойностите на променливите и след това да се изчисли каква част от общата съществуваща вариация може да се обясни с наличието на "обща" ("съвместна") вариация в две (или повече) променливи.

Значимостта зависи главно от размера на извадката. Както вече беше обяснено, в много големи проби дори много слабите връзки между променливите ще бъдат значими, докато в малки проби дори много силните връзки не са надеждни.

По този начин, за да се определи нивото на статистическа значимост, е необходима функция, която да представя връзката между "величината" и "значимостта" на връзката между променливите за всеки размер на извадката.

Такава функция би посочила точно "колко е вероятно да се получи зависимост на дадена стойност (или повече) в извадка с даден размер, като се приеме, че няма такава зависимост в популацията." С други думи, тази функция ще даде ниво на значимост
(p-ниво) и следователно вероятността за погрешно отхвърляне на предположението, че тази връзка не съществува в популацията.

Тази "алтернативна" хипотеза (че няма зависимост в популацията) обикновено се нарича нулева хипотеза.

Би било идеално, ако функцията, която изчислява вероятността за грешка, е линейна и има различни наклони само за различни размери на извадката. За съжаление тази функция е много по-сложна и не винаги е една и съща. Въпреки това, в повечето случаи неговата форма е известна и може да се използва за определяне на нивата на значимост при изследване на проби с даден размер. Повечето от тези функции са свързани с клас разпределения, наречен нормално .

Когато се обосновава статистическо заключение, трябва да се реши къде е границата между приемането и отхвърлянето на нулевата хипотеза? Поради наличието на случайни влияния в експеримента, тази граница не може да бъде начертана абсолютно точно. Тя се основава на концепцията ниво на значимост. Ниво на значимост е вероятността за неправилно отхвърляне на нулевата хипотеза. Или, с други думи, ниво на значимост - е вероятността от грешка тип I при вземане на решение. За означаване на тази вероятност, като правило, те използват или гръцката буква α, или латинската буква Р.По-нататък ще използваме писмото Р.

Исторически, в приложните науки, които използват статистика, и по-специално в психологията, се счита, че най-ниското ниво на статистическа значимост е нивото p = 0,05; достатъчно - ниво Р= 0,01 и най-високото ниво p = 0,001. Следователно в статистическите таблици, които са дадени в приложението към учебниците по статистика, табличните стойности обикновено се дават за нивата p = 0,05, p = 0,01 и Р= 0,001. Понякога се дават таблични стойности за нива R - 0,025 и p = 0,005.

Стойностите 0.05, 0.01 и 0.001 са така наречените стандартни нива на статистическа значимост. При статистическия анализ на експерименталните данни психологът, в зависимост от целите и хипотезите на изследването, трябва да избере необходимото ниво на значимост. Както можете да видите, тук най-голямата стойност или долната граница на нивото на статистическа значимост е 0,05 - това означава, че са разрешени пет грешки в извадка от сто елемента (случаи, субекти) или една грешка от двадесет елемента (случаи, предмети). Смята се, че нито шест, нито седем, нито повече пъти от сто можем да сгрешим. Цената на подобни грешки би била твърде висока.

Имайте предвид, че в съвременните статистически софтуерни пакети на компютри не се използват стандартни нива на значимост, а нива, изчислени директно в процеса на работа със съответния статистически метод. Тези нива, означени с буквата R,може да има различен цифров израз в диапазона от 0 до 1, например, p = 0,7, Р= 0,23 или Р= 0,012. Ясно е, че в първите два случая получените нива на значимост са твърде високи и е невъзможно да се каже, че резултатът е значим. В същото време в последния случай резултатите са значими на ниво от 12 хилядни. Това е валидно ниво.

Правилото за приемане на статистическо заключение е следното: на базата на получените експериментални данни психологът изчислява т. нар. емпирична статистика, или емпирична стойност, като използва избрания от него статистически метод. Удобно е тази стойност да се обозначи като з имп . След това емпирична статистика з имп в сравнение с две критични стойности, които съответстват на нивата на значимост от 5% и 1% за избрания статистически метод и които се означават като з кр . Количества з кр се намират за даден статистически метод според съответните таблици, дадени в приложението към всеки учебник по статистика. Тези количества, като правило, винаги са различни и за удобство могат да бъдат наричани допълнително з cr1и з kr2 . Критичните стойности, намерени от таблиците з cr1и з kr2Удобно е да се представи в следната стандартна нотация:

Подчертаваме обаче, че сме използвали нотацията з имп и з кр като съкращение от думата "номер". Във всички статистически методи се приемат техните символични обозначения на всички тези количества: както емпиричната стойност, изчислена чрез съответния статистически метод, така и критичните стойности, намерени от съответните таблици. Например, при изчисляване на коефициента на рангова корелация на Spearman от таблицата на критичните стойности на този коефициент бяха открити следните стойности на критичните стойности, които за този метод се обозначават с гръцката буква ρ ("ro") . Така че за p = 0,05 стойност, намерена според таблицата ρ кр 1 = 0,61 и за p = 0,01 стойност ρ кр 2 = 0,76.

В стандартната нотация, приета по-долу, изглежда така:

Сега трябва да сравним нашата емпирична стойност с двете критични стойности, намерени в таблиците. Това става най-добре, като поставите и трите числа върху така наречената „ос на значимост“. „Оса на значимост“ е права линия, в левия край на която е 0, въпреки че по правило не е отбелязана на самата права линия и числовите серии се увеличават отляво надясно. Всъщност това е обичайната училищна ос x ОХДекартова координатна система. Особеността на тази ос обаче е, че върху нея се разграничават три секции, „зони“. Едната крайна зона се нарича зона на незначителност, втората крайна зона се нарича зона на значимост, а междинната зона се нарича зона на несигурност. Границите и на трите зони са з cr1за p = 0,05 и з kr2 за p = 0,01, както е показано на фигурата.

В зависимост от правилото за вземане на решение (правило за извод), предписано в този статистически метод, са възможни две опции.

Вариант 1: Алтернативната хипотеза се приема, ако з имп ≥з кр .

Или вторият вариант: алтернативната хипотеза се приема, ако з имп ≤з кр .

Преброено з имп според някакъв статистически метод тя непременно трябва да попадне в една от трите зони.

Ако емпиричната стойност попада в зоната на незначимост, тогава се приема хипотезата H 0 за липсата на разлики.

Ако з имп попада в зоната на значимост, се приема алтернативната хипотеза H 1 относно има различия и хипотезата H 0 се отхвърля.

Ако з имп попада в зоната на несигурност, изследователят е изправен пред дилема. Така че, в зависимост от важността на проблема, който се решава, той може да счита получената статистическа оценка за надеждна на ниво от 5% и по този начин да приеме хипотезата H 1, отхвърляйки хипотезата H 0 , или - ненадеждни на ниво от 1%, като по този начин се приема хипотезата H 0 . Подчертаваме обаче, че това е точно случаят, когато психологът може да допусне грешки от първи или втори вид. Както беше обсъдено по-горе, при тези обстоятелства е най-добре да се увеличи размерът на извадката.

Ние също така подчертаваме, че стойността з имп може точно да съвпада с двете з cr1или з kr2 . В първия случай можем да приемем, че оценката е надеждна точно на ниво от 5% и да приемем хипотезата H 1 или, обратно, да приемем хипотезата H 0 . Във втория случай, като правило, се приема алтернативната хипотеза H 1 за наличието на разлики и се отхвърля хипотезата H 0.

Концепцията за статистическа значимост

Статистическата валидност е от съществено значение в изчислителната практика на FCC. Беше отбелязано по-рано, че много проби могат да бъдат избрани от една и съща популация:

Ако те са избрани правилно, тогава техните средни показатели и показатели на генералната съвкупност се различават леко един от друг в големината на грешката на представителност, като се вземе предвид приетата надеждност;

Ако те са избрани от различни генерални съвкупности, разликата между тях се оказва значителна. Сравнението на извадките обикновено се разглежда в статистиката;

Ако те се различават незначително, маловажно, незначително, тоест действително принадлежат към една и съща генерална съвкупност, разликата между тях се нарича статистически ненадеждни.

статистически значимразликата в извадката е извадка, която се различава значително и фундаментално, т.е. принадлежи към различни генерални популации.

В FCC оценяването на статистическата значимост на разликите в извадката означава решаване на много практически проблеми. Например въвеждането на нови методи на обучение, програми, набори от упражнения, тестове, контролни упражнения е свързано с тяхната експериментална проверка, която трябва да покаже, че тестовата група е коренно различна от контролната група. Затова се използват специални статистически методи, т.нар критерии за статистическа значимост,което позволява да се открие наличието или липсата на статистически значима разлика между пробите.

Всички критерии са разделени на две групи: параметрични и непараметрични. Параметрични критериипредвиждат задължително наличие на нормален закон за разпределение, т.е. това се отнася до задължителното определяне на основните показатели на нормалния закон - средноаритметичното хи стандартно отклонение около. Параметричните критерии са най-точни и правилни. Непараметрични тестовесе основават на ранговите (порядъчни) разлики между елементите на извадките.

Ето основните критерии за статистическа значимост, използвани в практиката на FCC: тест на Стюдънт, тест на Фишър, тест на Уилкоксън, тест на Уайт, тест на Ван дер Ваерден (сигналов тест).

Критерий на ученикана името на английския учен К. Госет (Студент е псевдоним), който открива този метод. Критерият на ученика е параметричен,използвани за сравняване на абсолютните стойности на пробите. Пробите могат да варират по размер.

Критерият на Студент се определя по следния начин.

1. Намерете критерия на Стюдънт Tпо следната формула:

където xi, x 2 - средно аритметично от сравнявани проби; /i b w 2 - грешки в представителността, идентифицирани въз основа на показателите на сравняваните извадки.

2. Практиката в FCC показва, че за спортна работа е достатъчно да се приеме надеждността на резултата Р= 0,95.

63 За надеждност на акаунта: P= 0,95 (a = 0,05), с броя на градусите; свобода к= «! + n 2 - 2 според таблицата на приложение 4 намираме стойността \ добре, граничната стойност на критерия (^gr).

3. Въз основа на свойствата на нормалния закон за разпределение се прави сравнение в теста на Стюдънт Tи t^.

4. Направете изводи:

Ако t> ftp, тогава разликата между сравняваните проби е статистически значима;

Ако T< 7 F, тогава разликата не е статистически значима.

За изследователите в областта на FCC оценката на статистическата значимост е първата стъпка в решаването на конкретен проблем: фундаментално или нефундаментално различие между; сравними проби. Следващата стъпка е; оценка на тази разлика от педагогическа гледна точка, която се определя от условието на проблема.

Статистическа значимост

Резултатите, получени с помощта на определена изследователска процедура, се наричат статистически значимако вероятността от случайното им появяване е много малка. Тази концепция може да се илюстрира с примера за хвърляне на монета. Да предположим, че една монета е хвърлена 30 пъти; Излезе 17 пъти с глави и 13 пъти с опашки. Така ли смисленДали това е отклонение от очаквания резултат (15 глави и 15 опашки), или това е съвпадение? За да отговорите на този въпрос, можете например да хвърлите една и съща монета много пъти 30 пъти подред и в същото време да отбележите колко пъти се повтаря съотношението на главите и опашките, равно на 17:13. Статистическият анализ ни спасява от този досаден процес. С негова помощ, след първите 30 хвърляния на монети, е възможно да се оцени възможният брой случайни появи на 17 глави и 13 опашки. Такава оценка се нарича вероятностно твърдение.

В научната литература по индустриално-организационна психология вероятностно твърдение в математическа форма се означава с израза Р(вероятност)< (менее) 0,05 (5 %), которое следует читать как «вероятность менее 5 %». В примере с киданием монеты это утверждение будет означать, что если исследователь проведет 100 опытов, каждый раз кидая монету по 30 раз, то он может ожидать случайного выпадения комбинации из 17 «орлов» и 13 «решек» менее, чем в 5 опытах. Этот результат будет сочтен статистически значимым, поскольку в индустриально-организационной психологии уже давно приняты стандарты статистической значимости 0,05 и 0,01 (Р< 0,01). Този факт е важен за разбирането на литературата, но не трябва да се разбира като безсмислено да се правят наблюдения, които не отговарят на тези стандарти. Така наречените незначителни резултати от изследване (наблюдения, които могат да бъдат получени случайно Повече ▼един или пет пъти от 100) могат да бъдат много полезни за идентифициране на тенденции и като ръководство за бъдещи изследвания.

Трябва също да се отбележи, че не всички психолози са съгласни с традиционните стандарти и процедури (напр. Cohen, 1994; Sauley & Bedeian, 1989). Проблемите с измерването сами по себе си са основен фокус на работа за много изследователи, които изучават точността на методите за измерване и предположенията, които са в основата на съществуващите методи и стандарти, както и разработването на нови лекарства и инструменти. Може би някога в бъдещето изследванията в тази сила ще доведат до промяна в традиционните стандарти за оценка на статистическата значимост и тези промени ще спечелят всеобщо приемане. (Петата глава на Американската психологическа асоциация обединява психолози, които са специализирани в изучаването на оценки, измервания и статистики.)

В доклади от изследвания вероятностно твърдение като напр Р< 0,05, поради някои статистикатоест число, което се получава в резултат на определен набор от математически изчислителни процедури. Вероятностно потвърждение се получава чрез сравняване на тези статистики с данни от специални таблици, публикувани за тази цел. В индустриално-организационните психологически изследвания статистиката като напр r, F, t, r>(четете "чи квадрат") и Р(прочетете „множество R").Във всеки случай статистическите данни (едно число), получени от анализа на поредица от наблюдения, могат да бъдат сравнени с числата от публикуваната таблица. След това е възможно да се формулира вероятностно твърдение за вероятността за случайно получаване на това число, тоест да се направи заключение за значимостта на наблюденията.

За да разберете проучванията, описани в тази книга, е достатъчно да имате ясно разбиране на концепцията за статистическа значимост и не е задължително да знаете как се изчисляват споменатите по-горе статистики. Все пак би било полезно да се обсъди едно предположение, което е в основата на всички тези процедури. Това е предположението, че всички наблюдавани променливи се разпределят приблизително според нормалния закон. Освен това, когато четете доклади за индустриално-организационни психологически изследвания, често има още три концепции, които играят важна роля - първо, корелация и корелация, второ, детерминантната / предикторната променлива и "ANOVA" (анализ на дисперсията), на трето място , група статистически методи под общото наименование „мета-анализ“.

Помислете за типичен пример за прилагане на статистически методи в медицината. Създателите на лекарството предполагат, че той увеличава диурезата пропорционално на приетата доза. За да проверят това предположение, те дават на петима доброволци различни дози от лекарството.

Според резултатите от наблюденията се начертава графика на диурезата спрямо дозата (фиг. 1.2A). Зависимостта се вижда с просто око. Изследователите се поздравяват взаимно за откритието и света за новия диуретик.

Всъщност данните ни позволяват надеждно да заявим само, че зависимостта на диурезата от дозата е наблюдавана при тези петима доброволци. Фактът, че тази зависимост ще се прояви при всички хора, които ще приемат лекарството, не е нищо повече от предположение.
WJ

жени. Не може да се каже, че е безпочвен - иначе защо да експериментираме?

Но сега лекарството е на пазара. Все повече и повече хора го приемат с надеждата да увеличат диурезата си. И какво виждаме? Виждаме Фиг. 1.2B, което показва липсата на връзка между дозата на лекарството и диурезата. Черните кръгове представляват данни от оригиналното проучване. Статистиката има методи за оценка на вероятността да се получи такава „непредставителна“, освен това объркваща извадка. Оказва се, че при липса на връзка между диурезата и дозата на лекарството, получената "зависимост" би се наблюдавала в около 5 от 1000 експеримента. Така че в този случай изследователите просто нямаха късмет. Дори да приложат и най-съвършените статистически методи, това пак няма да ги спаси от грешка.

Този измислен, но съвсем не далеч от реалността пример, ние цитирахме не за да изтъкнем безполезността
статистика. Той говори за нещо друго, за вероятностния характер на нейните заключения. В резултат на прилагането на статистическия метод ние не получаваме крайната истина, а само оценка на вероятността на определено предположение. Освен това всеки статистически метод се основава на собствен математически модел и неговите резултати са правилни дотолкова, доколкото този модел отговаря на реалността.

Повече за НАДЕЖДНОСТТА И СТАТИСТИЧЕСКАТА ЗНАЧИМОСТ:

Статистически значими разлики в показателите за качество на живот
Статистически агрегат. Знаци на сметката. Концепцията за непрекъснати и селективни изследвания. Изисквания към статистическата съвкупност и използването на счетоводни и отчетни документи
ЕСЕ. ИЗСЛЕДВАНЕ НА НАДЕЖДНОСТТА НА ОТЧИТАНИЯТА НА ТОНОМЕТЪРА ЗА ИЗМЕРВАНЕ НА ВЪТРЕШНОТО НАЛЯГАНЕ ПРЕЗ КЛЕПАЧА 2018, 2018