Основните положения на класическата теория на тестовете. Основни понятия на теорията на тестовете

Какво е тестване

В съответствие с IEEE Std 829-1983 Тестване- това е процес на анализ на софтуера, насочен към идентифициране на разликите между действително съществуващите и изискваните свойства (дефект) и оценка на свойствата на софтуера.

Съгласно GOST R ISO IEC 12207-99 кръговат на животаСофтуерът дефинира, наред с други, поддържащи процеси за проверка, валидиране, съвместен преглед и одит. Процесът на проверка е процесът на определяне, че софтуерните продукти работят в пълно съответствие с изискванията или условията, въведени в предишната работа. Този процес може да включва анализ, проверка и тестване (тестване). Процесът на валидиране е процесът на определяне на пълнотата на съответствие с установените изисквания, създадената система или софтуерен продукттяхното функционално предназначение. Процесът на съвместен анализ е процес на оценка на състоянието и, ако е необходимо, на резултатите от работата (продуктите) на проекта. Процесът на одит е процес на определяне на съответствие с изискванията, плановете и условията на договора. Заедно тези процеси съставляват това, което обикновено се нарича тестване.

Тестването се основава на тестови процедури със специфични входни данни, начални условия и очаквани резултати, предназначени за конкретна цел, като например тестване на една програма или проверка на съответствие с определено изискване. Тестовите процедури могат да тестват различни аспекти от функционирането на програмата – от коректната работа на отделна функция до адекватното изпълнение на бизнес изискванията.

При изпълнението на даден проект е необходимо да се вземе предвид в съответствие с какви стандарти и изисквания ще бъде тестван продуктът. Какви инструменти (ако има такива) ще бъдат използвани за намиране и документиране на откритите дефекти. Ако си спомняте за тестването от самото начало на проекта, тестването на продукта в процес на разработка няма да донесе неприятни изненади. Това означава, че качеството на продукта вероятно ще бъде доста високо.

Жизнен цикъл на продукта и тестване

Все по-често в наше време се използват итеративни процеси за разработка на софтуер, по-специално технология RUP - Rational Unified Process(Фиг. 1). Когато се използва този подход, тестването престава да бъде процес „извън пътя“, който започва, след като програмистите са написали целия необходим код. Работата по тестовете започва от самия начален етап на идентифициране на изискванията за бъдещ продукт и е тясно интегрирана с текущите задачи. И това поставя нови изисквания към тестерите. Тяхната роля не е просто да идентифицират грешките възможно най-пълно и възможно най-рано. Те трябва да участват в цялостния процес на идентифициране и справяне с най-значимите рискове по проекта. За да направите това, за всяка итерация се определя целта на тестването и методите за нейното постигане. И в края на всяка итерация се установява доколко тази цел е постигната, дали допълнителни тестовеи дали е необходимо да се променят принципите и инструментите за провеждане на тестове. От своя страна всеки открит дефект трябва да премине през собствен жизнен цикъл.

Ориз. 1. Жизнен цикъл на продукта по RUP

Тестването обикновено се провежда на цикли, всеки от които има определен списък от задачи и цели. Тестовият цикъл може да съвпадне с итерация или да съответства на определена част от нея. По правило се провежда тестов цикъл за конкретен монтаж на системата.

Жизненият цикъл на софтуерния продукт се състои от поредица от относително кратки итерации (Фигура 2). Итерацията е пълен цикъл на разработка, водещ до пускането на краен продукт или някаква негова съкратена версия, която се разширява от итерация на итерация, за да се превърне в крайна сметка в цялостна система.

Всяка итерация включва, като правило, задачите за планиране на работата, анализ, проектиране, внедряване, тестване и оценка на постигнатите резултати. Съотношението на тези задачи обаче може да варира значително. В съответствие със съотношението на различните задачи в итерацията, те се групират във фази. В първата фаза – Начало – основно внимание се обръща на задачите на анализа. Итерациите на втората фаза - Разработка - се фокусират върху дизайна и тестването на ключови дизайнерски решения. В третата фаза – Building – най-голям е делът на задачите за разработка и тестване. И в последната фаза - Трансфер - в най-голяма степен се решават задачите по тестване и прехвърляне на системата към Клиента.

Ориз. 2. Итерации на жизнения цикъл на софтуерен продукт

Всяка фаза има свои специфични цели в жизнения цикъл на продукта и се счита за завършена, когато тези цели бъдат постигнати. Всички итерации, освен може би итерациите на началната фаза, завършват със създаването на функционираща версия на разработваната система.

Категории тестване

Тестовете се различават значително по задачите, които решават, и използваната техника.

Категории тестване	Описание на категорията	Видове тестове
Текущи тестове	Набор от тестове, който се изпълнява, за да се определи изправността на новите системни функции, които са добавени.	Стрес тестване; тестване на бизнес цикъл; стрес тестване.
Регресионно тестване	Целта на регресионното тестване е да се провери дали добавките към системата не са намалили нейните възможности, т.е. тестването се извършва в съответствие с изискванията, които вече са изпълнени, преди да се добавят нови функции.	Стрес тестване; тестване на бизнес цикъл; стрес тестване.

Подкатегории на тестване

Подкатегории на тестване	Описание на вида на изпитването	Подвид на тестване
Стрес тестване	Използва се за тестване на всички функции на приложението без изключение. AT този случайредът, в който се тестват функциите, няма значение.	функционално тестване; тестване на интерфейси; тестване на бази данни
Тестване на бизнес цикъла	Използва се за тестване на функциите на приложението в реда, в който са извикани от потребителя. Например имитация на всички действия на счетоводител за 1 тримесечие.	модулно тестване (единично тестване); функционално тестване; тестване на интерфейси; тестване на бази данни.
стрес тестване	Използва се за тестване Производителност на приложението. Целта на това тестване е да се определи рамката за стабилна работа на приложението. С този тест се извикват всички налични функции.	модулно тестване (единично тестване); функционално тестване; тестване на интерфейси; тестване на бази данни.

Подкатегории на тестване

Описание на вида на изпитването

Подвид на тестване

Стрес тестване

Използва се за тестване на всички функции на приложението без изключение. AT този случайредът, в който се тестват функциите, няма значение.

функционално тестване;
тестване на интерфейси;
тестване на бази данни

Тестване на бизнес цикъла

Използва се за тестване на функциите на приложението в реда, в който са извикани от потребителя. Например имитация на всички действия на счетоводител за 1 тримесечие.

модулно тестване (единично тестване);
функционално тестване;
тестване на интерфейси;
тестване на бази данни.

стрес тестване

Използва се за тестване

Производителност на приложението. Целта на това тестване е да се определи рамката за стабилна работа на приложението. С този тест се извикват всички налични функции.

модулно тестване (единично тестване);
функционално тестване;
тестване на интерфейси;
тестване на бази данни.

Видове тестове

Единично тестване (единично тестване) - този тип включва тестване на отделни модули на приложението. За да се получи максимален резултат, тестването се извършва едновременно с разработването на модули.

Функционално тестване — целта на този тест е да се провери дали тестовият елемент функционира правилно. Тества се коректността на навигацията през обекта, както и въвеждането, обработката и изхода на данни.

Тестване на бази данни - Проверка на работоспособността на базата данни при нормална работа на приложението, при претоварване и в многопотребителски режим.

Единично тестване

За OOP обичайната организация за тестване на единици е да се тестват методите на всеки клас, след това класът на всеки пакет и т.н. Постепенно се преминава към тестване на целия проект, като предишните тестове приличат на регресионни.

Изходната документация на тези тестове включва тестови процедури, входни данни, код, който изпълнява теста, и изходни данни. Следва изглед на изходната документация.

Функционално тестване

Функционалното тестване на тестовия обект се планира и провежда въз основа на изискванията за тестване, посочени в етапа на дефиниране на изискванията. Изискванията са бизнес правила, диаграми на случаи на използване, бизнес функции и, ако има такива, диаграми на дейности. Целта на функционалните тестове е да се провери дали разработените графични компоненти отговарят на определените изисквания.

Този тип тестове не могат да бъдат напълно автоматизирани. Следователно той се подразделя на:

Автоматизирано тестване (да се използва в случай, че можете да проверите изходната информация).

Предназначение: да се тества въвеждането, обработката и изхода на данни;

Ръчно тестване (в други случаи).

Цел: тестване на коректността на изпълнение на изискванията на потребителя.

Необходимо е да се изпълни (пусне) всеки от случаите на използване, като се използват както правилни стойности, така и очевидно грешни, за да се потвърди правилното функциониране, съгласно следните критерии:

продуктът отговаря адекватно на всички входни данни (очакваните резултати се показват в отговор на правилно въведени данни);
продуктът реагира адекватно на неправилно въведени данни (появяват се съответните съобщения за грешка).

Тестване на бази данни

Целта на това тестване е да се провери надеждността на методите за достъп до базата данни, тяхното правилно изпълнение, без да се нарушава целостта на данните.

Необходимо е последователно да се използва максималния възможен брой достъпи до базата данни. Използва се подход, при който тестът се компилира по такъв начин, че да „зареди“ базата данни с поредица както от правилни стойности, така и от очевидно грешни. Определя се реакцията на базата данни при въвеждане на данни, оценяват се интервалите от време за тяхната обработка.

Основи на теорията на тестовете 1. Основни понятия на теорията на тестовете 2. Надеждност на тестовете и начини за определянето й

Контролни въпроси 1. Какво се нарича тест? 2. Какви са изискванията за теста? 3. Какви тестове се наричат автентични? 4. Какво се нарича надеждност на теста? 5. Избройте причините, които причиняват вариации в резултатите при повторно тестване. 6. Каква е разликата между вътрешнокласова вариация и междукласова вариация? 7. Как практически да се определи надеждността на теста? 8. Каква е разликата между последователност и стабилност на теста? 9. Каква е еквивалентността на тестовете? 10. Какво е хомогенен набор от тестове? 11. Какво е разнороден набор от тестове? 12. Начини за подобряване на надеждността на тестовете.

Тестът е измерване или тест, проведен за определяне на състоянието или способностите на дадено лице. Не всички измервания могат да се използват като тестове, а само тези, които отговарят на специални изисквания. Те включват: 1. стандартизация (процедурата и условията на изпитване трябва да бъдат еднакви във всички случаи на прилагане на теста); 2. надеждност; 3. информативен; 4. наличие на рейтингова система.

Изисквания към теста: n Информативност - степента на точност, с която измерва свойството (качество, способност, характеристика), за което се използва. n Надеждност - степента на съответствие между резултатите, когато едни и същи хора се тестват многократно при едни и същи условия. Съгласуваност - (различни хора, но същите устройства и едни и същи условия). n n Стандартни условия - (същите условия за повторни измервания). n Наличие на система за оценяване - (преминаване към система за оценяване. Както в училище 5 -4 -3. . .).

Тестовете, които отговарят на изискванията за надеждност и информативност, се наричат добри или автентични (гръцки authentico - по надежден начин)

Процесът на тестване се нарича тестване; числената стойност, получена в резултат на измерването, е резултатът от изпитването (или резултатът от изпитването). Например бягането на 100 м е тест, процедурата за провеждане на състезания и измерване на времето е тестване, времето за бягане е резултат от теста.

Тестовете, базирани на двигателни задачи, се наричат двигателни или двигателни тестове. Техните резултати могат да бъдат или двигателни постижения (време за изминаване на разстояние, брой повторения, изминато разстояние и др.), или физиологични и биохимични показатели.

Понякога се използват не един, а няколко теста, които имат една крайна цел (например оценка на състоянието на спортиста в състезателния период на подготовка). Такава група тестове се нарича комплекс или батерия от тестове.

Един и същи тест, приложен към едни и същи субекти, трябва да дава идентични резултати при същите условия (освен ако самите субекти не са се променили). Въпреки това, при най-строга стандартизация и прецизно оборудване, резултатите от тестовете винаги варират донякъде. Например, изследователят, който току-що е показал резултат от 215 k.G в теста за гръбначна динамометрия, при повторение показва само 190 k.G.

Надеждност на тестовете и начини за определянето й Надеждността на теста е степента на съответствие между резултатите при повторно тестване на едни и същи хора (или други обекти) при същите условия.

Промяната на резултатите по време на многократно тестване се нарича вътрешноиндивидуална, вътрешногрупова или вътрешнокласова. Четири основни причини причиняват тази вариация: 1. Промени в състоянието на субектите (умора, тренировка, „учене“, промени в мотивацията, концентрацията и т.н.). 2. Неконтролирани промени във външните условия и оборудване (температура, вятър, влажност, напрежение в мрежата, присъствие на неупълномощени лица и др.), т.е. всичко, което се комбинира с термина " случайна грешкаизмервания".

Четири основни причини причиняват тази вариация: 3. Промяна в състоянието на лицето, което администрира или оценява теста (и, разбира се, замяната на един експериментатор или съдия с друг). 4. Несъвършенство на теста (има тестове, които очевидно са ненадеждни. Например, ако субектите изпълняват свободни хвърляния в баскетболна кошница, тогава дори баскетболист с висок процент на удари може случайно да направи грешка при първите хвърляния) .

Концепцията за истинския резултат от теста е абстракция (не може да бъде измерена чрез опит). Следователно трябва да се използват индиректни методи. Анализът на дисперсията с последващо изчисляване на коефициентите на вътрешнокласова корелация е най-предпочитан за оценка на надеждността. Анализът на дисперсията ви позволява да разложите вариацията на резултатите от теста, записани в експеримента, на компоненти поради влиянието на отделни фактори.

Ако регистрирате резултатите от изследванията в който и да е тест, повторете този тест в различни дни, и всеки ден да правите няколко опита, периодично сменяйки експериментаторите, тогава ще има вариации: а) от субект на субект; n б) от ден на ден; n в) от експериментатор към експериментатор; н г) от опит до опит. Анализът на дисперсията дава възможност да се изолират и оценят тези вариации. н

По този начин, за да се оцени на практика надеждността на теста, е необходимо, n първо, да се извърши анализ на дисперсията, n второ, да се изчисли вътрешнокласовият коефициент на корелация (коефициент на надеждност).

Говорейки за надеждността на тестовете, е необходимо да се прави разлика между тяхната стабилност (възпроизводимост), последователност и еквивалентност. n n Под стабилност на теста разбирайте възпроизводимостта на резултатите, когато се повтаря след определено време при същите условия. Повторното тестване обикновено се нарича повторен тест. Последователността на теста се характеризира с независимостта на резултатите от теста от личните качества на лицето, което провежда или оценява теста.

Ако всички тестове, включени във всеки набор от тестове, са силно еквивалентни, той се нарича хомогенен. Целият този комплекс измерва едно свойство на двигателните умения на човека (например комплекс, състоящ се от скокове от място на дължина, нагоре и тройно; оценява се нивото на развитие на скоростно-силовите качества). Ако в комплекса няма еквивалентни тестове, т.е. тестовете, включени в него, измерват различни свойства, тогава той се нарича хетерогенен (например комплекс, състоящ се от динамометрия в изправено положение, скок на Абалаков, бягане на 100 метра).

Надеждността на тестовете може да се подобри до известна степен чрез: n n n a) по-строга стандартизация на тестовете; б) увеличаване на броя на опитите; в) увеличаване на броя на оценителите (съдии, експерименти) и повишаване на последователността на техните мнения; г) увеличаване на броя на еквивалентните тестове; д) по-добра мотивация на изследваните лица.

Първият компонент, теория на тестовете, съдържа описание статистически моделиобработка на диагностични данни. Съдържа модели за анализ на отговорите в тестовите задачи и модели за изчисляване на общите резултати от теста. Меленберг (1980, 1990) го нарича "психометрия". Класическа теория на тестовете, съвременна теория на тестовете (или модел за анализ на отговора на теста - IRT) и модел

пробните задачи включват най-много три важен типмодели на теория на тестовете. Предмет на разглеждане на психодиагностиката са първите два модела.

Класическа теория на тестовете. Въз основа на тази теория са разработени повечето интелектуални и личностни тестове. Централното понятие на тази теория е понятието "надеждност". Надеждността се отнася до последователността на резултатите при повторна оценка. В справочниците тази концепция обикновено се представя много накратко и след това се дава Подробно описаниеапарат за математическа статистика. В тази уводна глава ще представим кратко описаниеосновното значение на отбелязаното понятие. AT класическа теориятестове, надеждността се разбира като повторяемостта на резултатите от няколко измервателни процедури (главно измервания с помощта на тестове). Концепцията за надеждност включва изчисляването на грешката при измерване. Резултатите, получени по време на процеса на тестване, могат да бъдат представени като сума от истинския резултат и грешката на измерване:

Xi = Ti+ Еj

където Xiе оценката на получените резултати, Ti е истинският резултат и Еj- грешка при измерване.

Оценката на получените резултати по правило е броят на верните отговори на тестовите задачи. Истинският резултат може да се разглежда като истинска оценка в Платоновия смисъл (Gulliksen, 1950). Концепцията за очакваните резултати е широко разпространена, т.е. идеи за резултати, които могат да бъдат получени в резултат на голям брой повторения на измервателни процедури (лорд & Нович, 1968). Но провеждането на една и съща процедура за оценка с един човек не е възможно. Следователно е необходимо да се търсят други решения на проблема (Witlman, 1988).

В рамките на тази концепция се правят някои допускания относно истинските резултати и грешките при измерване. Последните се приемат като независим фактор, което, разбира се, е напълно разумно предположение, тъй като случайните колебания в резултатите не дават ковариации: r EE =0.

Предполага се, че няма връзка между истинските резултати и грешките при измерване: rEE=0.

Общата грешка е 0, т.к средната стойност се приема като истинска оценка аритметична стойност:

Тези предположения най-накрая ни водят до добре познатата дефиниция на надеждността като съотношението на истинския резултат към обща дисперсияили изразът: 1 минус съотношението, в чийто числител е грешката на измерване, а в знаменателя е общата дисперсия:

, ИЛИ

От тази формула за определяне на надеждността получаваме дисперсията на грешката S 2 (E)е равно на общата дисперсия в броя на случаите (1 – r XX "); по този начин, стандартна грешкаизмерването се определя по формулата:

След теоретичното обосноваване на надеждността и нейните производни е необходимо да се определи индексът на надеждност на конкретен тест. Има практически процедури за оценка на надеждността на тестовете, като например използване на взаимозаменяеми формуляри (паралелни тестове), разделяне на елементи на две части, повторно тестване и измерване на вътрешна последователност. Всяка директория съдържа индекси на съгласуваността на резултатите от теста:

r XX ’ \u003d r (x 1, x 2)

където rXX' е коефициентът на стабилност, и х 1 и x2 - резултати от две измервания.

Концепцията за надеждност на взаимозаменяемите форми е въведена и развита от Gulliksen (1950). Тази процедура е доста трудоемка, тъй като е свързана с необходимостта от създаване на паралелна поредица от задачи.

r XX ’ \u003d r (x 1, x 2)

където rXX' е съотношението на еквивалентност, и х 1 и x2 - два паралелни теста.

Следващата процедура - разделянето на основния тест на две части A и B - е по-лесна за използване. Получените резултати от двете части на теста са корелирани. С помощта на формулата на Spearman-Brown се оценява надеждността на теста като цяло:

където A и B са две успоредни части на теста.

Следващият метод е да се определи вътрешната последователност на изпълнението на тестовите елементи. Този метод се основава на определяне на ковариациите на отделни елементи. Sg е дисперсията на произволно избран елемент, а Sgh е ковариацията на два произволно избрани елемента. Най-често използваният коефициент за определяне на вътрешна консистенция е "алфа" на Кронбах. Използва се и формулата КР20 и λ-2(ламбда-2).

В класическата концепция за надеждност се дефинират грешки в измерването, които възникват както в процеса на тестване, така и в процеса на наблюдение. Източниците на тези грешки са различни: това могат да бъдат лични характеристики, характеристики на условията на тестване и самите тестови задачи. Има специфични методи за изчисляване на грешки. Знаем, че нашите наблюдения може да се окажат погрешни, нашите методически инструменти са несъвършени по същия начин, по който са несъвършени и самите хора. (Как да не си спомним Шекспир: „Ненадежден си ти, чието име е човек“). Фактът, че грешките в измерването са обяснени и обяснени в класическата теория на тестовете, е важен положителен момент.

Класическата теория на тестовете има редица съществени характеристикикоето може да се отчете като негов недостатък. Някои от тези характеристики са отбелязани в справочниците, но тяхната важност (от ежедневна гледна точка) рядко се подчертава, нито се отбелязва, че от теоретична или методологична гледна точка те трябва да се считат за недостатъци.

Първо. Класическата теория на тестовете и концепцията за надеждност са фокусирани върху изчисляването на общите тестови показатели, които са резултат от сумирането на оценките, получени в отделните задачи. Да, на работа

Второ. Коефициентът на надеждност включва оценка на големината на разсейването на измерените показатели. От това следва, че коефициентът на надеждност ще бъде по-нисък, ако (при равни други условия) извадката е по-хомогенна. Няма единичен коефициент на вътрешна съгласуваност на тестовите задачи, този коефициент винаги е „контекстуален“. Crocker и Algina (1986), например, предлагат специална формула за „корекция на хомогенна проба“, предназначена за най-високите и най-ниските резултати, получени от участниците в теста. Важно е диагностикът да знае характеристиките на вариациите в пробата, в противен случай той няма да може да използва вътрешните коефициенти на съгласуваност, посочени в ръководството за този тест.

трето. Феноменът на редукция до средно аритметично е логично следствие от класическата концепция за надеждност. Ако резултатът от теста варира (т.е. не е достатъчно надежден), тогава е възможно, когато процедурата се повтори, субектите с ниски резултати да получат повече висок резултати обратно, предметите с високи резултати са ниски. Този артефакт от процедурата на измерване не може да бъде сбъркан с истинска промяна или проява на процеси на развитие. Но в същото време не е лесно да се направи разлика между тях, т.к възможността за промяна в хода на развитието никога не може да бъде изключена. За пълна сигурност е необходимо сравнение с контролната група.

Четвъртата характеристика на тестовете, проектирани в съответствие с принципите на класическата теория, е наличието на нормативни данни. Познаването на нормите на теста позволява на изследователя да интерпретира адекватно резултатите от теста. Извън нормите резултатите от тестовете са безсмислени. Разработването на тестови норми е доста скъпо начинание, тъй като психологът трябва да получи резултати от теста върху представителна извадка.

2 Я. тер Лаак

Ако говорим за недостатъците на класическата концепция за надеждност, тогава е уместно да цитираме твърдението на Si-tsma (1992, стр. 123-125). Той отбелязва, че първото и основно предположение на класическата теория на тестовете е, че резултатите от теста се подчиняват на принципа на интервала. Въпреки това няма проучвания в подкрепа на това предположение. Всъщност това е „измерване по произволно установено правило“. Тази характеристика поставя класическата теория на тестовете в неизгодно положение в сравнение със скалите за измерване на отношението и, разбира се, в сравнение със съвременната теория на тестовете. Много методи за анализ на данни (вариантен анализ, регресионен анализ, корелационен и факторен анализ) се основават на предположението за съществуването на интервална скала. Тя обаче няма солидна основа. Разглеждането на скалата на истинските резултати като скала на стойностите на психологическите характеристики (например аритметични способности, интелигентност, невротизъм) може само да се предполага.

Втората забележка се отнася до факта, че резултатите от теста не са абсолютни показателина една или друга психологическа характеристика на тестваното лице, те трябва да се разглеждат само като резултати от изпълнението на конкретен тест. Два теста може да претендират, че измерват едни и същи психологически характеристики (напр. интелигентност, вербални способности, екстравертност), но това не означава, че тези два теста са еквивалентни и имат едни и същи възможности. Сравняването на представянето на двама души, които са били тествани с различни тестове, е неправилно. Същото важи и за попълването на два различни теста от един предмет. Трета забележка се отнася до предположението, че стандартната грешка на измерване е една и съща за всяко ниво на измерима способност на индивида. Няма обаче емпирична проверка на това предположение. Така например няма гаранция, че участник в теста с добро математически способностипри работа с относително прост аритметичен тест ще получите високи резултати. В този случай човек с ниски или средни способности е по-вероятно да получи висока оценка.

В рамките на съвременната теория на тестовете или теорията за анализа на отговорите, тестовите задачи съдържат описание на голям

броя на моделите на възможните отговори на респондентите. Тези модели се различават по своите основни допускания и изисквания към данните. Моделът на Rasch често се разглежда като синоним на теориите за анализ на отговора на елемента (1RT). Всъщност това е само един от моделите. Представената в него формула за описване на характеристичната крива на настройка g е следната:

където ж- отделна тестова задача; експ- експоненциална функция (нелинейна зависимост); δ ("делта") - нивото на трудност на теста.

Други тестови елементи като ч,също получават свои собствени характерни криви. Изпълнение на условието δh >δg (gозначава, че ч- Повече ▼ трудна задача. Следователно, за всяка стойност на индикатора Θ ("тета" - латентни свойства на способностите на тествания) вероятността за успешно изпълнение на задачата чпо-малко. Този модел се нарича строг, тъй като е очевидно, че при ниска степен на изразяване на чертата вероятността за изпълнение на задачата е близка до нула. В този модел няма място за догадки и предположения. За елементи с избор не е необходимо да се правят предположения относно вероятността за успех. В допълнение, този модел е строг в смисъл, че всички тестови задачи трябва да имат еднаква дискриминационна способност (високата дискриминация се отразява в стръмността на кривата; тук е възможно да се изгради скалата на Гутман, според която във всяка точка от характеристичната крива, вероятността за изпълнение на задачата варира от O до 1). Поради това условие не всички задачи могат да бъдат включени в тестове, създадени на базата на модела на Раш.

Има няколко варианта на този модел (напр. Birnbaura, 1968, Вижте Lord & Novik). Позволява съществуването на задачи с различна дискриминация

способност.

Холандският изследовател Mokken (1971) е разработил два модела за анализ на отговорите на тестови задачи, чиито изисквания не са толкова строги, колкото в модела на Rasch, и следователно, може би, по-реалистични. Като основно условие

Viya Mokken излага позицията, че характерната крива на задачата трябва да следва монотонно, без прекъсвания. Всички тестови задачи са насочени към изучаване на една и съща психологическа характеристика, която трябва да се измерва в.Всяка форма на тази зависимост е разрешена, стига да не се разпадне. Следователно формата на характеристичната крива не се определя от някаква конкретна функция. Тази „свобода“ ви позволява да използвате повече тестови задачи, а нивото на оценка не е по-високо от нормалното.

Методологията на моделите на отговор на теста (IRT) се различава от тази на повечето експериментални и корелационни изследвания. Математическият модел е предназначен да изследва поведенчески, когнитивни, емоционални характеристики, както и феномени на развитието. Тези разглеждани явления често са ограничени до отговори на задачите, което кара Меленберг (1990) да нарече IRT теорията "мини-теория за мини-поведението". Резултатите от изследването могат до известна степен да бъдат представени като криви на консистенция, особено в случаите, когато липсват теоретични представи за изследваните характеристики. Досега имаме на наше разположение само няколко теста за интелигентност, способности и личностни тестове, създадени въз основа на многобройни модели от теорията на IRT. Вариантите на модела на Rasch се използват по-често при разработването на тестове за постижения (Verhelst, 1993), докато моделите на Mokken са по-подходящи за феномени на развитието (виж също Глава 6).

Отговорът на участниците в теста на тестовите елементи е основната единица на IRT моделите. Видът на отговора се определя от степента на изразеност на изследваната характеристика в дадено лице. Такава характеристика може да бъде например аритметични или пространствени способности. В повечето случаи това е един или друг аспект на интелигентността, характеристиките на постиженията или личностните черти. Предполага се, че между позицията на това конкретно лицев определен диапазон от изследваните характеристики и вероятността за успешно изпълнение на определена задача съществува нелинейна връзка. Нелинейността на тази зависимост е в известен смисъл интуитивна. Известни фрази„Всяко начало е трудно“ (бавно не-

начало на реда) и „Да станеш светец не е толкова лесно“, означават, че по-нататъшното усъвършенстване след достигане на определено нивото вървитруден. Кривата бавно се приближава, но почти никога не достига 100% успеваемост.

Някои модели по-скоро противоречат на нашето интуитивно разбиране. Да вземем този пример. Човек с произволен характерен индекс на тежест, равен на 1,5, има 60 процента вероятност за успех при изпълнение на задачата. Това противоречи на нашето интуитивно разбиране за такава ситуация, защото можете или успешно да изпълните задачата, или изобщо да не се справите с нея. Да вземем този пример: 100 пъти човек се опитва да вземе височина от 1 м 50 см. Успехът го съпътства 60 пъти, т.е. има 60 процента успех.

За да се оцени тежестта на дадена характеристика, са необходими поне две задачи. Моделът на Rasch включва определяне на тежестта на характеристиките, независимо от трудността на задачата. Това също противоречи на нашата интуиция: да предположим, че човек има 80 процента шанс да скочи над 1,30 м. Вероятността да скочи над 1,70 м. Следователно, независимо от стойността на независимата променлива (височина), може да се оцени способността на човек да скача високо.

Има около 50 IRT модела (Goldstein & Wood, 1989) Има много нелинейни функции, които описват (обясняват) вероятността за успех при изпълнение на задача или група от задачи. Изискванията и ограниченията на тези модели са различни и тези разлики могат да бъдат открити чрез сравняване на модела на Rasch и скалата на Mokken. Изискванията за тези модели включват:

1) необходимостта да се определи изследваната характеристика и да се оцени позицията на човек в обхвата на тази черта;

2) оценка на последователността на задачите;

3) проверка на конкретни модели. В психометрията са разработени много процедури за тестване на модела.

Някои справочници разглеждат IRT теорията като форма на анализ на тестови елементи (вижте например

Croker & Algina, J 986). Може обаче да се твърди, че теорията за IRT е "мини-теория за мини-поведението". Привържениците на теорията за IRT забелязват, че ако концепциите (моделите) на средното ниво са несъвършени, тогава какво може да се каже за по-сложните конструкции в психологията?

Класическа и съвременна теория на тестовете. Хората не могат да не сравняват неща, които изглеждат почти еднакви. (Може би ежедневният еквивалент на психометрията се състои главно в сравняване на хора според значими характеристики и избор между тях). Всяка от представените теории - както теорията за измерване на грешките в оценката, така и математическият модел на отговорите на тестовите задачи - има своите поддръжници (Goldstein & Wood, 1986).

Моделите IRT не предизвикват упреци, че това е "оценка, базирана на правила", за разлика от класическата теория на тестовете. Моделът IRT е фокусиран върху анализа на оценените характеристики. Характеристиките на личността и характеристиките на задачите се оценяват с помощта на скали (порядъчни или интервални). Освен това е възможно да се сравняват показателите за ефективност на различни тестове, насочени към изучаване на подобни характеристики. И накрая, надеждността не е еднаква за всяка стойност на скалата и средните стойности обикновено са по-надеждни от стойностите в началото и края на скалата. По този начин IRT моделите са теоретично по-добри. Има и разлики в практическа употребамодерна теория на тестовете и класическа теория (Sijstma, 1992, стр. 127-130). Съвременната теория на тестовете е по-сложна от класическата теория, така че по-рядко се използва от неспециалисти. Освен това IRT има специални изисквания към заданията. Това означава, че елементите трябва да бъдат изключени от теста, ако не отговарят на изискванията на модела. Това правило важи и за онези задачи, които са част от широко разпространените тестове, изградени на принципите на класическата теория. Тестът става по-кратък и следователно по-малко надежден.

IRT предлага математически модели за изследване на реални явления. Моделите трябва да ни помогнат да разберем ключовите аспекти на тези явления. Тук обаче има голям теоретичен проблем. Могат да се разглеждат модели

като подход към изследването на сложната реалност, в която живеем. Но моделът и реалността не са едно и също нещо. Според песимистичната гледна точка е възможно да се моделират само единични (и освен това не най-интересните) типове поведение. Можете да срещнете и твърдението, че реалността изобщо не подлежи на моделиране, т.к. не се подчинява само на законите на причината и следствието. AT най-добрият случайвъзможно е да се моделират индивидуални (идеални) поведенчески феномени. Съществува и друг, по-оптимистичен възглед за възможностите на моделирането. Горната позиция блокира възможността за дълбоко разбиране на природата на феномените на човешкото поведение. Прилагането на един или друг модел повдига някои общи, фундаментални въпроси. Според нас няма съмнение, че IRT е концепция, която теоретично и технически превъзхожда класическата теория на тестовете.

Практическото предназначение на тестовете, на каквато и теоретична основа да са създадени, е да определят значими критерии и на тяхна основа да установят характеристиките на определени психологически конструкти. И в това отношение моделът IRT има ли предимства? Възможно е тестовете, базирани на този модел, да не дават по-точна прогноза от тестовете, базирани на класическата теория, и е възможно приносът им за развитието на психологически конструкти да не е по-значим. Диагностиците предпочитат критерии, които са пряко свързани с индивид, институция или общност. Един по-научно превъзходен модел не „ipso facto“ определя по-подходящ критерий и е донякъде ограничен в обяснението на научни конструкции. Очевидно е, че развитието на тестове, базирани на класическата теория, ще продължи, но в същото време ще бъдат създадени нови IRT модели, разширяващи се до изследването на по-голям брой психологически феномени.

В класическата теория на тестовете се разграничават понятията "надеждност" и "валидност". Резултатите от теста трябва да са надеждни, т.е. резултатите от първоначалните и повторните тестове трябва да са последователни. Освен това,

* дефакто(лак) - сам по себе си (прибл. прев.).

резултатите не трябва да съдържат (доколкото е възможно) грешки в оценката. Наличието на валидност е едно от изискванията за получените резултати. В същото време надеждността се счита за необходимо, но все още недостатъчно условие за валидността на теста.

Концепцията за валидност предполага, че получените резултати се отнасят до нещо важно в практически или теоретичен план. Изводи, направени от тестови оценки, трябва да е валиден. Най-често се говори за два вида валидност: предсказуема (критериална) и конструктивна. Има и други видове валидност (вижте Глава 3). В допълнение, валидността може да бъде определена и в случай на квази-експерименти (Cook & Campbell, 1976, Cook & Шадиш, 1994). Въпреки това, основният тип валидност все още е предсказуемата валидност, която се разбира като способността да се предскаже нещо значимо за бъдещото поведение въз основа на резултат от тест, както и възможността за по-задълбочено разбиране на едно или друго психологическо свойство или качество.

Представените видове валидност са разгледани във всеки наръчник и са придружени от описание на методите за анализиране на валидността на даден тест. Факторният анализ е по-подходящ за определяне на валидирането на конструкцията и уравненията линейна регресияизползвани за анализиране на предсказващата валидност. Определени характеристики (успех, ефективност на терапията) могат да бъдат прогнозирани на базата на един или повече показатели, наполовина научени при работа с интелектуални или личностни тестове. Техники за обработка на данни като корелация, регресия, дисперсионен анализ, анализ на частични корелации и дисперсии служат за определяне на предсказващата валидност на даден тест.

Често се описва и валидността на съдържанието. Предполага се, че всички задачи и задачи на теста трябва да принадлежат към определена област (психически свойства, поведение и др.). Концепцията за валидност на съдържанието характеризира съответствието на всяка тестова задача с измерената област. Валидността на съдържанието понякога се разглежда като част от надеждността или „обобщаемостта“ (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Въпреки това, когато

Когато избирате елементи за тестове за постижения в определен предмет, също е важно да обърнете внимание на правилата за включване на елементи в теста.

В класическата теория на тестовете надеждността и валидността се считат за относително независими една от друга. Но има и друго разбиране за връзката между тези понятия. Съвременна теориятестовете се основават на прилагането на модели. Параметрите се оценяват в рамките на някакъв модел. Ако задачата не отговаря на изискванията на модела, тогава в рамките на този модел тя се признава за невалидна. Валидирането на конструкцията е част от валидирането на самия модел. Това валидиране се отнася основно до тестване за съществуването на едномерна латентна черта, представляваща интерес, с известни характеристики на мащаба. Резултатите по скалата могат, разбира се, да се използват за определяне на подходящи критерии и могат да бъдат съпоставени с резултати от други конструкции, за да се предостави информация за конвергентна и дивергентна валидност на конструкцията.

Психодиагностиката е аналог на езика, описан като съвкупност от четири компонента, представени на три нива. Първият компонент, теорията на тестовете, е аналогичен на синтаксиса, граматиката на езика. Генериращата (генеративна) граматика е, от една страна, остроумен модел, от друга страна, система, която се подчинява на правила. С тези правила, базирани на прости утвърдителни предложенияса изградени комплекси. В същото време обаче този модел оставя настрана описанието как е организиран комуникационният процес (какво се предава и какво се възприема) и за какви цели се осъществява. За да се разбере това, са необходими допълнителни знания. Същото може да се каже и за теорията на тестовете: тя е необходима в психодиагностиката, но не е в състояние да обясни какво прави психодиагностикът и какви са неговите цели.

1.3.2. Психологически теориии психологически конструкти

Психодиагностиката винаги е диагностика на нещо конкретно: личностни характеристики, поведение, мислене, емоции. Тестовете са предназначени да оценят индивидуалните различия. Има няколко концепции

индивидуални различия, всяка от които има свои собствени отличителни черти. Ако се признае, че психодиагностиката не се ограничава само до оценката на индивидуалните различия, тогава други теории стават съществени за психодиагностиката. Пример е оценката на различията в процесите на психичното развитие и различията в социалната среда. Въпреки че оценката на индивидуалните различия не е задължителен атрибут на психодиагностиката, въпреки това съществуват определени традиции в изследванията в тази област. Психодиагностиката започна с оценка на разликите в интелигентността. Основната задача на тестовете беше да се „определи наследственото предаване на гения“ (Галон) или подборът на деца за обучение (Бине, Симон). Измерването на IQ получи теоретично разбиране и практическо развитие в трудовете на Spearman (Великобритания) и Thurstone (САЩ). Реймънд Б. Кател направи подобно нещо за оценка на личностните характеристики. Психодиагностиката става неразривно свързана с теориите и идеите за индивидуалните различия в постиженията (оценка на маргиналните способности) и формите на поведение (ниво на типично функциониране). Тази традиция продължава да бъде ефективна и днес. В учебниците по психодиагностика различията в социалната среда се оценяват много по-рядко в сравнение с разглеждането на характеристиките на самите процеси на развитие. Няма разумно обяснение за това. От една страна, диагностиката не се ограничава до определени теории и концепции. От друга страна, тя се нуждае от теории, тъй като именно в тях се определя диагностицираното съдържание (т.е. "какво" се диагностицира). Така например интелигентността може да се разглежда като основни характеристикии като основа за множество способности, независими една от друга. Ако психодиагностиката се опитва да "избяга" от една или друга теория, тогава основата на психодиагностичния процес е представянето здрав разум. Изследването използва различни начинианализ на данни и обща логикаизследването определя избора на конкретен математически модел и определя структурата на използваните психологически концепции. Такива методи на математическата статистика

като дисперсионен анализ, регресионен анализ, факторен анализ, изчисляване на корелация предполагат съществуването линейни зависимости. В случай на неправилно прилагане на тези методи, те "привеждат" своята структура към получените данни и използваните конструкции.

Идеите за различията в социалната среда и за развитието на личността почти не оказват влияние върху психодиагностиката. Учебниците (вижте например Murphy & Davidshofer, 1988) обсъждат класическата теория на тестовете и обсъждат съответните методи за статистическа обработка, описват известни тестове, разглежда използването на психодиагностиката в практиката: в психологията на управлението, при подбора на персонал, при оценката на психологическите характеристики на човек.

Теориите за индивидуалните различия (както и идеите за различията между социалните среди и за умственото развитие) са аналогични на изследването на семантиката на езика. Това е изследване и на същността, и на съдържанието, и на смисъла. Значенията са структурирани по определен начин (като психологически конструкти), например чрез сходство или контраст (аналогия, конвергенция, дивергенция).

1.3.3. Психологически тестове и други методически средства

Третият компонент на предложената схема са тестовете, процедурите и методическите средства, чрез които се събира информация за характеристиките на личността. Drene и Siitsma (1990, стр. 31) дефинират тестовете по следния начин: „Психологическият тест се разглежда като класификация според определена системаили като процедура за измерване, която ви позволява да направите определена преценка относно една или повече емпирично идентифицирани или теоретично обосновани характеристики на конкретен аспект на човешкото поведение (извън тестовата ситуация). В този случай се разглежда реакцията на респондентите на определен брой внимателно подбрани стимули и получените отговори се сравняват с тестовите норми.

Диагностиката изисква тестове и техники за събиране на надеждна, точна и валидна информация за функциите

и отличителни чертиличността, мисленето, емоциите и човешкото поведение. В допълнение към разработването на тестови процедури, този компонент включва и следните въпроси: как се създават тестове, как се формулират и избират задачи, как протича процесът на тестване, какви са изискванията за условията на тестване, как се вземат предвид грешките при измерване, как резултатите от тестовете се изчисляват и интерпретират.

В процеса на разработване на тестове се разграничават рационални и емпирични стратегии. Прилагането на рационална стратегия започва с дефинирането на основни понятия (например понятията за интелигентност, екстраверсия) и в съответствие с тези идеи се формулират тестови задачи. Пример за такава стратегия е концепцията за аспектен анализ (фасетната теория) на Гутман (1957, 1968, 1978). Първо се определят различни аспекти на основните конструкции, след което се избират задачи и задачи по такъв начин, че да се вземе предвид всеки от тези аспекти. Втората стратегия е, че задачите се избират на емпирична основа. Например, ако един изследовател се опита да създаде тест за професионален интерес, който би разграничил медицинските специалисти от инженерите, тогава процедурата би била следната. И двете групи респонденти трябва да отговорят на всички задачи от теста, като онези задачи в отговорите, по които са открити статистически значими разлики, се включват в окончателния вариант на теста. Ако например има разлики между групите в отговорите на твърдението „Обичам да ловя риба“, тогава това твърдение става елемент от теста. Основната точка на тази книга е, че тестът е свързан с концептуална или таксономична теория, която определя тези характеристики.

Целта на теста обикновено се определя в инструкциите за неговото използване. Тестът трябва да бъде стандартизиран, така че да може да измерва разликите между хората, а не между условията на теста. Съществуват обаче отклонения от стандартизацията в процедурите, наречени „тестване на границите“ (тестване на границите) и „тестове за потенциал за учене“ (тестове за потенциал за учене). При тези условия респондентът се подпомага в процеса

тестване и след това оценете ефекта от такава процедура върху резултата. Изчисляването на точки за отговори на задачи е обективно, т.е. извършва се по стандартната процедура. Тълкуването на получените резултати също е строго дефинирано и се извършва на базата на тестови норми.

Третият компонент на психодиагностиката - психологически тестове, инструменти, процедури - съдържа определени задачи, които са най-малките единици на психодиагностиката и в този смисъл задачите са подобни на фонемите на езика. Броят на възможните комбинации от фонеми е ограничен. Само определени фонемни структури могат да образуват думи и изречения, които предоставят информация на слушателя. Също итестови задачи: само в определена комбинация помежду си могат да станат ефективен инструментоценки на съответния конструкт.

Ключови въпроси: Тестът като инструмент за измерване. Основни теории за тестване. Функции, възможности и ограничения на тестването. Използването на тестове при оценката на персонала. Предимства и недостатъци на използването на тестове. Форми и видове тестови задачи. Технология на конструиране на задачи. Оценка на качеството на теста. Надеждност и валидност. Тествайте софтуер за разработка. 2

Тестът като средство за измерване Основни понятия в тестологията: измерване, тест, съдържание и форма на задачите, надеждност и валидност на резултатите от измерването. В допълнение, тестологията използва такива понятия на статистическата наука като извадка и обща съвкупност, средни стойности, вариация, корелация, регресия и т.н. 4

Тестовата задача е дидактически и технологично ефективна единица контролен материал, част от теста, която отговаря на изискванията за предметна чистота на съдържанието (или едноизмерност), съдържателна и логическа коректност, коректност на формата, приемливост на геометричния образ на задачата. 6

Традиционният тест е стандартизиран метод за диагностика на нивото и структурата на готовността. В такъв тест всички субекти отговарят на едни и същи задачи, по едно и също време, при еднакви условия и с едни и същи правила за оценяване на отговорите. За да постигнете целта на теста, можете да създадете безброентестове, като всички те могат да съответстват на постигането на задачата. осем

Професиограма (от лат. Professio специалност + Gramma record) е система от характеристики, които описват определена професия, а също така включва списък с норми и изисквания за служител по тази професия или специалност. По-специално, професиограмата може да включва списък с психологически характеристики, на които трябва да отговарят представителите на определени професионални групи. 9

Основна теория на тестовете Първите научни трудове по теория на тестовете се появяват в началото на ХХ век, в пресечната точка на психологията, социологията, педагогиката и други така наречени поведенчески науки. Чуждите психолози наричат тази наука психометрия (Psychometrika), а учителите – педагогическо измерване (Educational measurement). Незамъглено от идеология и политика, тълкуването на името "тестология" е просто и прозрачно: наука за тестовете. десет

Първият етап – праистория – от античността до края на XIXвекове, когато преднаучните форми на контрол на знанията и способностите са били често срещани; вторият период, класически, продължава от началото на 20-те до края на 60-те години, през който се създава класическата теория на тестовете; третият период - технологичен - който започва през 70-те години - времето на разработване на методи за адаптивно тестване и учене, методологията за ефективно разработване на тестове и тестови задачи за параметрична оценка на субектите по отношение на измереното латентно качество. единадесет

Функции, възможности и ограничения на тестването Тестовете, използвани при подбора, са предназначени да получат психологическа картинакандидат, оценете неговите способности, както и професионални знания и умения. Тестовете ви позволяват да сравнявате кандидатите един с друг или със стандарти, тоест идеален кандидат. Тестовете се използват за измерване на качествата на човек, необходими за ефективното изпълнение на дадена работа. Някои тестове са проектирани по такъв начин, че работодателят сам провежда теста и изчислява резултатите. Други изискват услугите на опитни консултанти, за да осигурят правилното им прилагане. 12

Ограниченията при използването на тестове са свързани - със скъпото им администриране; - с пригодност за оценка на способностите на човек; - тестовете са по-успешни при прогнозиране на успех в работни места, които включват краткосрочни професионални задачи, и не са много удобни в случаите, когато задачите, които се решават на работното място, отнемат няколко дни или седмици. 13

2. Използваната терминология трябва да бъде съобразена с конкретния случай целева аудитория. Излишните статии или статии, които включват два или повече въпроса, също трябва да бъдат изключени, тъй като понякога объркват респондента и затрудняват тълкуването. 17

3. За да изпълните всички тези изисквания, трябва да прегледате цялата банка от въпроси статия по статия и да анализирате каква цел служи всеки от тях. Например, ако се разработва тест за измерване на аналитичните способности на чираци-счетоводители, струва си да се обмисли какво означава „аналитични способности“ в този случай. осемнадесет

5. Когато се избират въпроси и формати за оценяване, те трябва да бъдат преобразувани в удобен за потребителя формат, с ясно написани инструкции и примерни въпроси; така че участниците в теста да разберат напълно какво се изисква от тях. двадесет

6. Много често на този етап от развитието в теста се включват повече въпроси от необходимото. Според някои оценки, три пъти повече, отколкото ще остане в окончателния тест или система за измерване. Тогава началната точка би била да се тества разработваният тест върху сравнително голяма извадка от съществуващи работници, за да се гарантира, че всички въпроси се разбират лесно. 21

7. Тестовете за знания обикновено започват с прости въпросипостепенно става все по-трудно към края. Когато тестовете са предназначени за измерване на социални нагласи и личностни характеристики, може да е полезно да се редуват отрицателно и положително формулирани статии, за да се избегнат зле обмислени отговори. 22

8. Последната стъпка е да се приложи тестът върху голяма представителна извадка, за да се установят производителност, валидност и стандарти за валидност, преди да може да се използва като инструмент за подбор. Освен това трябва да се определи справедливостта на теста, за да се гарантира, че той не дискриминира никакви подгрупи от населението (напр. етнически различия). 23

Оценка на качеството на теста За да бъдат достатъчно ефективни методите за подбор, те трябва да бъдат надеждни, валидни и надеждни. Надеждността на метода за подбор се характеризира с неговата неподатливост на систематични грешки в измерването, тоест неговата последователност при различни условия. 24

На практика надеждността при вземането на преценки се постига чрез сравняване на резултатите от два или повече подобни теста, проведени в различни дни. Друг начин за повишаване на надеждността е да се сравнят резултатите от няколко алтернативни метода за подбор (напр. тест и интервю). Ако резултатите са подобни или еднакви, те могат да се считат за верни. 25

Надеждността означава, че направените измервания ще дадат същия резултат като предишните, тоест резултатите от оценката не се влияят от външни фактори. Валидността означава, че методът измерва точно това, което е предназначен да направи. Максималната възможна точност на информацията, получена чрез специално разработени методи в научно изследване, е ограничено от технически фактори и не надвишава 0,8. 26

В практиката за подбор на персонал се отбелязва, че надеждността различни методиоценките са разположени в интервалите: 0,1 - 0,2 - традиционно интервю; 0,2 - 0,3 - препоръки; 0,3 - 0,5 - професионални тестове; 0,5 - 0,6 - структурирано интервю, интервю, базирано на компетентности; 0,5 - 0,7 - когнитивна и личностни тестове; 0,6 - 0,7 - компетентностен подход (оценка - център). 27

Валидността се отнася до степента на точност, с която даден резултат, метод или критерий "предсказва" бъдещото представяне на лицето, което се тества. Валидността на методите се отнася до заключенията, направени от дадена процедура, а не до самата процедура. Тоест методът за избор може сам по себе си да е надежден, но да не отговаря на конкретна задача: да се измери не това, което се изисква в този случай. 28

Софтуер за проектиране на тестове родна практикапредставени са различни интегрирани програми с модула "Психодиагностика", например програмата "1 C: Заплата и управление на персонала 8.0" с модула "Психодиагностика", разработена съвместно с група преподаватели от катедрата по психология на личността и обща психологияФакултет по психология на Московския държавен университет. М. В. Ломоносов под ръководството на д-р псих. науки, проф. А. Н. Гусева. Обучителен симулатор за разработване на системи за оценка на персонала и адаптиране на методи за тестване на Факултета по психология на TSU, също разработен на базата на "1 C: Enterprise 8.2" от Personnel Soft. 29

Използвана литература: Подбор и набиране на персонал: технологии за тестване и оценка / Доминик Купър, Иван Т. Робъртсън, Гордън Тинлайн. - М., издателство "Вершина", - 156 с. Психологическа подкрепа професионална дейност: теория и практика / Ред. проф. Г. С. Никифорова. - Санкт Петербург: Реч, - 816 с. тридесет

Основни понятия на теорията на тестовете.

Измерване или тест, извършен за определяне на състоянието или способностите на спортиста, се нарича тест. Всеки тест включва измерване. Но не всяка промяна служи като тест. Процедурата за измерване или изпитване се нарича тестване.

Тест, базиран на двигателни задачи, се нарича двигателен тест. Има три групи двигателни тестове:

1. Контролни упражнения, изпълнявайки които спортистът получава задачата да покаже максимален резултат.
2. Стандартни функционални тестове, при които задачата, еднаква за всички, се дозира или според обема на извършената работа, или според големината на физиологичните промени.
3. Максимални функционални тестове, по време на които спортистът трябва да покаже максимален резултат.

Висококачественото тестване изисква познаване на теорията на измерването.

Основни понятия от теорията на измерванията.

Измерването е идентифициране на съответствието между изследваното явление, от една страна, и числата, от друга.

Основите на теорията на измерванията са три понятия: измервателни скали, мерни единици и точност на измерване.

Измервателни везни.

Скалата на измерване е законът, по който се приписва числова стойност на измерения резултат, когато той нараства или намалява. Помислете за някои от везните, използвани в спорта.

Именна скала (номинална скала).

Това е най-простият от всички мащаби. При него числата играят ролята на етикети и служат за откриване и разграничаване на изследваните обекти (например номерацията на играчи на футболен отбор). Числата, които съставляват скалата на имената, могат да се променят чрез мета. В тази скала няма отношения повече-по-малко, така че някои хора смятат, че използването на скала от имена не трябва да се счита за измерване. При използване на скала, имена, могат да се извършват само някои математически операции. Например, числата му не могат да се събират или изваждат, но можете да преброите колко пъти (колко често) се среща определено число.

Мащаб на поръчката.

Има спортове, при които резултатът на спортиста се определя само от мястото, заето в състезания (например бойни изкуства). След такива състезания е ясно кой от спортистите е по-силен и кой е по-слаб. Но колко по-силен или по-слаб, не може да се каже. Ако трима спортисти заемат съответно първо, второ и трето място, тогава каква е разликата в тяхното спортно майсторство остава неясно: вторият спортист може да е почти равен на първия или може да е по-слаб от него и да е почти същият като третия. Местата, заети в скалата за подреждане, се наричат рангове, а самата скала се нарича рангова или неметрична. В такава скала, нейните съставни числа са подредени по ранг (т.е. заети места), но интервалите между тях не могат да бъдат точно измерени. За разлика от скалата на имената, скалата на реда позволява не само да се установи фактът на равенство или неравенство на измерваните обекти, но и да се определи естеството на неравенството под формата на преценки: „повече - по-малко“, „по-добре - по-лошо“. “, и т.н.

С помощта на скали за ред е възможно да се измери качество, което няма строгост количествена мярка, индикатори. Тези везни са особено широко използвани в хуманитарни науки: педагогика, психология, социология.

Повече математически операции могат да бъдат приложени към ранговете на скалата за подреждане, отколкото към числата в скалата на деноминацията.

Интервална скала.

Това е скала, в която числата не само са подредени по ранг, но и разделени с определени интервали. Характеристиката, която го отличава от скалата на съотношенията, описана по-долу, е, че нулевата точка е избрана произволно. Примери за това са календарното време (началото на хронологията в различни календарие установен по случайни причини), ставен ъгъл (ъгълът в лакътната става при пълно разгъване на предмишницата може да се приеме равен на нула или 180 °), температура, потенциална енергияповдигнат товар, потенциал на електрическо поле и др.

Резултатите от измерванията по скалата на интервалите могат да се обработват от всички математически методиосвен за изчисляване на коефициенти. Тези интервални скали дават отговор на въпроса: „колко повече“, но не ни позволяват да твърдим, че една стойност на измереното количество е толкова пъти по-голяма или по-малка от друга. Например, ако температурата се е повишила от 10 на 20 С, тогава не може да се каже, че е станала двойно по-топла.

Мащаб на връзката.

Тази скала се различава от интервалната скала само по това, че стриктно определя позицията на нулевата точка. Поради това скалата на съотношението не налага никакви ограничения математически апарат, използвани за обработка на резултатите от наблюдението.

В спорта скалите за съотношение измерват разстоянието, силата, скоростта и десетки други променливи. По скалата на съотношенията се измерват и онези величини, които се образуват като разлика на числата, преброени по скалата на интервалите. И така, календарното време се отчита по скала от интервали, а интервалите от време - по скала от съотношения. При използване на скалата на съотношенията (и само в този случай!) Измерването на всяко количество се свежда до експериментално определяне на отношението на това количество към друго подобно, взето като единица. Измервайки дължината на скока, ние откриваме колко пъти тази дължина е по-голяма от дължината на друго тяло, взето като единица за дължина (в частен случай метър линийка); претегляйки щангата, ние определяме съотношението на нейната маса към масата на друго тяло - едно тегло "килограм" и т.н. Ако се ограничим само до използването на съотношителни скали, тогава можем да дадем друго (по-тясно, по-конкретно) определение на измерването: да измерим количество означава да намерим експериментално отношението му към съответната мерна единица.

Мерни единици.

За да могат резултатите от различни измервания да се сравняват помежду си, те трябва да бъдат изразени в едни и същи единици. През 1960 г. на Международната генерална конференция по мерки и теглилки е приет Международна системаединици, съкратено като SI (от начални буквидумите на System International). Понастоящем предпочитаното приложение на тази система е установено във всички области на науката и технологиите, в национална икономикакакто и в преподаването.

Понастоящем SI включва седем основни единици, независими една от друга (вижте таблица 2.1.)

Таблица 1.1.

От тези основни единици единиците на други физични величини се извеждат като производни. Производните единици се определят на базата на формули, които се отнасят една към друга физични величини. Например единицата за дължина (метър) и единицата за време (секунда) са основни единици, докато единицата за скорост (метър в секунда) е производна.

В допълнение към основните, в SI се разграничават две допълнителни единици: радианът е единица за плосък ъгъл, а стерадианът е единица за телесен ъгъл (ъгъл в пространството).

Точност на измерванията.

Нито едно измерване не може да бъде направено абсолютно точно. Резултатът от измерването неизбежно съдържа грешка, чиято стойност е толкова по-малка, колкото по-точни са методът на измерване и измервателният уред. Например, използвайки конвенционална линийка с милиметрови деления, е невъзможно да се измери дължината с точност до 0,01 mm.

Основна и допълнителна грешка.

Вътрешната грешка е грешката в метод на измерване или измервателен уред, която възниква в нормални условиятехните приложения.

Допълнителна грешка е грешката на измервателния уред, причинена от отклонение на работните му условия от нормалните. Ясно е, че устройствата, предназначени да работят при стайна температура, няма да дадат точни показания, ако се използват през лятото на стадиона под палещото слънце или през зимата на студа. Грешки в измерването могат да възникнат, когато напрежението на електрическата мрежа или батерията е под нормалното или с непоследователна величина.

Абсолютни и относителни грешки.

Стойността E \u003d A - Ao, равна на разликата между показанието на измервателното устройство (A) и истинската стойност на измереното количество (Ao), се нарича абсолютна грешка при измерване. Измерва се в същите единици като самата измервана величина.

На практика често е удобно да се използва не абсолютен, а относителна грешка. Относителната грешка на измерване бива два вида - реална и намалена. Действителната относителна грешка е съотношението абсолютна грешкадо истинската стойност на измереното количество:

A D =---------* 100%

Дадената относителна грешка е отношението на абсолютната грешка към максималната възможна стойност на измереното количество:

Ap =----------* 100%

Систематични и случайни грешки.

Систематична грешка се нарича, чиято стойност не се променя от измерване на измерване. Благодарение на тази характеристика, системната грешка често може да бъде предвидена предварително или, в екстремни случаи, открита и елиминирана в края на процеса на измерване.

Начинът за отстраняване на системната грешка зависи преди всичко от нейния характер. Систематичните грешки при измерване могат да бъдат разделени на три групи:

грешки известен произходи известна стойност;

грешки с известен произход, но неизвестна величина;

грешки с неизвестен произход и неизвестна величина. Най-безобидни са грешките от първата група. Отстраняват се лесно

чрез въвеждане на подходящи корекции в резултата от измерването.

Втората група включва на първо място грешките, свързани с несъвършенството на измервателния метод и измервателното оборудване. Например грешката при измерване на физическото представяне с помощта на маска за поемане на издишан въздух: маската затруднява дишането, а спортистът естествено демонстрира физическо представяне, което е занижено в сравнение с истинското, измерено без маска. Големината на тази грешка не може да се предвиди предварително: зависи от индивидуалните способности на спортиста и здравословното му състояние по време на изследването.

Друг пример за систематична грешка от тази група е грешката, свързана с несъвършенството на оборудването, когато измервателното устройство умишлено надценява или подценява истинската стойност на измереното количество, но размерът на грешката е неизвестен.

Грешките от третата група са най-опасни, появата им е свързана както с несъвършенството на метода на измерване, така и с характеристиките на обекта на измерване - спортиста.

Случайните грешки възникват под въздействието на различни фактори, които не могат да бъдат предвидени предварително или точно взети предвид. Случайните грешки по принцип не могат да бъдат елиминирани. Въпреки това, използвайки методите математическа статистика, е възможно да се оцени големината на случайната грешка и да се вземе предвид при интерпретирането на резултатите от измерването. Без статистическа обработка резултатите от измерването не могат да се считат за надеждни.