Біографії Характеристики Аналіз

Характеристика контрольного тестування у фізичному вихованні. Основні положення тестування

ЗВІТ

студента 137 гр. Іванова І.

про перевірку ефективності методики тренування
із застосуванням методів математичної статистики

Розділи звіту оформляються відповідно до зразків, наведених у цьому посібнику наприкінці кожного етапу гри. Зараховані звіти зберігаються на кафедрі біомеханіки перед іспитом. Студенти, які не прозвітували за виконану роботу і не здали зошит зі звітом викладачеві, до іспиту зі спортивної метрології не допускаються.


І етап ділової гри
Контроль та вимірювання у спорті

Ціль:

1. Ознайомитися з теоретичними основами контролю та вимірювань у спорті та фізичному вихованні.

2. Набути навичок вимірювання показників швидкісних якостей у спортсменів.

1. Контроль у фізичному
вихованні та спорті

Фізичне виховання та спортивне тренування – не стихійний, а керований процес. У кожний момент часу людина перебуває у певному фізичному стані, що визначається, головним чином, здоров'ям (відповідністю показників життєдіяльності нормі, ступенем стійкості організму до несприятливих раптових впливів), статурою та станом фізичних функцій.

Фізичним станом людини доцільно керувати, змінюючи його в потрібному напрямку. Це управління здійснюється засобами фізичного виховання та спорту, до яких, зокрема, належать фізичні вправи.

Це тільки здається, що викладач (чи тренер) керує фізичним станом, впливаючи поведінка спортсмена, тобто. пропонуючи певні фізичні вправи, а також контролюючи правильність їх виконання та одержувані при цьому результати. Насправді поведінкою спортсмена управляє не тренер, а сам спортсмен. У ході спортивного тренування впливає на самоврядну систему (організм людини). Індивідуальні відмінності в стані спортсменів не дають впевненості в тому, що один і той же вплив викличе однакову реакцію у відповідь. Тому актуальне питання зворотного зв'язку: інформації про стан спортсмена, що надходить тренеру під час контролю тренувального процесу.

Контроль у фізичному вихованні та спорті базується на вимірах показників, відборі найбільш суттєвих та їх математичної обробки.

Управління навчально-тренувальним процесом включає три стадії:

1) збирання інформації;

2) її аналіз;

3) ухвалення рішень (планування).

Збір інформації зазвичай здійснюється під час комплексного контролю, об'єктами якого є:

1) змагальна діяльність;

2) тренувальні навантаження;

3) стан спортсмена.



Розрізняють (В.А. Запорожанов) три типи станів спортсмена в залежності від тривалості проміжку, необхідного для переходу з одного стану до іншого.

1. Етапне(Перманентний) стан. Зберігається відносно довго –тижні чи місяці. Комплексна характеристикаетапного стану спортсмена, що відбиває його можливості до демонстрації спортивних досягнень, називається підготовленістю, а стан оптимальної (найкращої для даного циклу тренування) підготовленості – спортивною формою. Очевидно, що протягом одного або кількох днів не можна досягти стану спортивної форми або втратити його.

2. Поточнестан. Змінюється під впливом одного або кількох занять. Нерідко наслідки участі у змаганнях або виконаної на одному із занять тренувальної роботизатягуються на кілька днів. У цьому випадку спортсмен зазвичай відзначає явища як несприятливого характеру (наприклад, біль у м'язах), так і позитивного (наприклад, стан підвищеної працездатності). Такі зміни називають відставленим тренувальним ефектом.

Поточний стан спортсмена визначає характер найближчих тренувальних занять та величину навантажень у них. Окремий випадок поточного стану, що характеризується готовністю до виконання найближчими днями змагальної вправи з результатом, близьким до максимального, називається поточною готовністю.

3. Оперативнестан. Змінюється під впливом одноразового виконанняфізичних вправ і є тимчасовим (наприклад, втома, спричинена одноразовим пробігом дистанції; тимчасове підвищення працездатності після розминки). Оперативний стан спортсмена змінюється під час тренувального заняття і має враховуватися під час планування інтервалів відпочинку між підходами, повторними забігами, під час вирішення питання доцільності додаткової розминки тощо. Частковий випадок оперативного стану, що характеризується негайною готовністю до виконання вправи з змаганням з результатом, близьким до максимального, називається оперативною готовністю.

Відповідно до наведеної класифікації виділяють три основні види контролю стану спортсмена:

1) етапний контроль. Його мета – оцінити етапний стан (підготовленість) спортсмена;

2) поточний контроль. Його основне завдання – визначити повсякденні (поточні) коливання у стані спортсмена;

3) оперативний контроль. Його мета – експрес-оцінка стану спортсмена зараз.

Вимірювання чи випробування, проведене з метою визначення стану чи здібностей спортсмена, називається тестом. Процедура вимірів чи випробувань називається тестуванням.

Будь-який тест включає вимірювання. Але не всякий вимір є тестом. Як тести можуть бути використані лише ті, які задовольняють наступним метрологічним вимогам:

2) стандартизація;

3) наявність системи оцінок;

4) надійність та інформативність (добротність) тестів;

5) вид контролю (етапний, поточний чи оперативний).

Тест, основу якого лежать рухові завдання, називається руховим. Існує три групи рухових тестів:

1. Контрольні вправи, виконуючи які спортсмен отримує завдання показати максимальний результат. Результатом тесту є рухове досягнення. Наприклад, час, за який спортсмен пробігає дистанцію 100 м-коду.

2. Стандартні функціональні проби, у ході завдання, однакове всім, дозується або за величиною виконаної роботи, або за величиною фізіологічних зрушень. Результатом тесту є фізіологічні або біохімічні показники при стандартній роботі або рухові досягнення при стандартної величинифізіологічних зрушень. Наприклад, відсоток збільшення ЧСС після 20 присідань або швидкість, з якою біжить спортсмен при фіксованій величині ЧСС 160 ударів на хвилину.

3. Максимальні функціональні проби, під час яких спортсмен має показати максимальний результат. Результатом тесту є фізіологічні чи біохімічні показники за максимальної роботи. Наприклад, максимальне споживання кисню чи максимальна величина кисневого боргу.

Високоякісне тестування передбачає знання теорії вимірів.

Основи теорії тестів 1. Основні поняття теорії тестів 2. Надійність тестів та шляхи її визначення

Контрольні питання 1. Що називається тестом? 2. Які вимоги висуваються до тесту? 3. Які тести називаються автентичними? 4. Що називається надійністю тесту? 5. Перелічити причини, що викликають варіацію результатів під час повторного тестування. 6. У чому відмінність внутрішньокласової варіації від міжкласової? 7. Як практично визначити надійність тесту? 8. У чому відмінність узгодженості тестів від стабільності? 9. У чому полягає еквівалентність тестів? 10. Що таке гомогенний комплекс тестів? 11. Що таке гетерогенний комплекс тестів? 12. Шляхи підвищення надійності тестів.

Тест - це вимір чи випробування, яке з метою визначення стану чи здібностей людини. Не всякі виміри можна використовувати як тести, лише ті, які відповідають спеціальним вимогам. До них належать: 1. стандартизованість (процедура та умови тестування повинні бути однаковими у всіх випадках застосування тесту); 2. надійність; 3. інформативність; 4. наявність системи оцінок.

Вимоги тестів: Інформативність - ступінь точності, з якою він вимірює властивість (якість, здатність, характеристику), з метою оцінки якої використовується. n Надійність - ступінь збігу результатів при повторному тестуванні тих самих людей за однакових умов. Узгодженість - ( різні люди, але однакові прилади та однакові умови). n n Стандартність умов - (однакові умови при повторних вимірах). n Наявність системи оцінок - (переведення в систему оцінок. Як у школі 5 -4 -3...).

Тести, що задовольняють вимогам надійності та інформативності, називають добротними або автентичними (грец. автентико - достовірним чином)

Процес випробувань називається тестуванням; отримане в результаті виміру числове значення- результат тестування (або результат тесту). Наприклад, біг 100 м – це тест, процедура проведення забігів та хронометражу – тестування, час забігу – результат тесту.

Тести, основу яких лежать рухові завдання, називають руховими чи моторними. Результатами їх можуть бути або рухові досягнення (час проходження дистанції, кількість повторень, пройдена відстань тощо), або фізіологічні та біохімічні показники.

Іноді використовується не один, а кілька тестів, що мають єдину кінцеву мету (наприклад, оцінку стану спортсмена у періоді змагання тренування). Така група тестів називається комплексом чи батареєю тестів.

Один і той же тест, застосований до тих самих досліджуваних, повинен дати в однакових умовах збігаються результати (якщо тільки не змінилися самі досліджувані). Однак при найсуворішій стандартизації та точної апаратури результати тестування завжди дещо варіюють. Наприклад, досліджуваний, що щойно показав у тесті станової динамометрії результат 215 к. р, при повторному виконанні показує лише 190 к. р.

Надійність тестів та шляхи її визначення Надійністю тесту називається ступінь збігу результатів при повторному тестуванні тих самих людей (або інших об'єктів) в однакових умовах.

Варіацію результатів при повторному тестуванні називають усередині індивідуальної, або усередині групової, або внутрішньокласової. Чотири основні причини викликають цю варіацію: 1. Зміна стану досліджуваних (втома, впрацьовування, «навчання», зміна мотивації, концентрації уваги тощо). 2. Неконтрольовані зміни зовнішніх умов та апаратури (температура, вітер, вологість, напруга в електромережі, присутність сторонніх осіб тощо), тобто все те, що поєднується терміном “ випадкова помилкавиміру”.

Чотири основні причини викликають цю варіацію: 3. Зміна стану людини, яка проводить або оцінює тест (і, звичайно, заміна одного експериментатора чи судді іншим). 4. Недосконалість тесту (є такі тести, які явно малонадійні. Наприклад, якщо досліджувані виконують штрафні кидки в баскетбольний кошик, то навіть баскетболіст, який має високий відсотокможе випадково помилитися при перших кидках).

Поняття справжній результат тесту є абстракцією (в досвіді виміряти не можна). Тому доводиться використовувати непрямі методи. Найкращий для оцінки надійності дисперсійний аналізз наступним розрахунком внутрішньокласових коефіцієнтів кореляції. Дисперсійний аналіз дозволяє розкласти зареєстровану у досвіді варіацію результатів тесту на складові, що зумовлені впливом окремих факторів.

Якщо зареєструвати у досліджуваних їх результати в якомусь тесті, повторюючи цей тест різні дні, причому кожен день робити по кілька спроб, періодично змінюючи експериментаторів, то матимуть місце варіації: а) від випробуваного до випробуваного; n б) від дня до дня; n в) від експериментатора до експериментатора; г) від спроби до спроби. Дисперсійний аналіз дає можливість виділити та оцінити ці варіації. n

Таким чином, щоб оцінити практично надійність тесту, треба, n по-перше, виконати дисперсійний аналіз, n по-друге, розрахувати внутрішньокласовий коефіцієнт кореляції (коефіцієнт надійності).

Говорячи про надійність тестів, необхідно розрізняти їхню стабільність (відтворюваність), узгодженість, еквівалентність. n n Під стабільністю тесту розуміють відтворюваність результатів при його повторенні через певний часза однакових умов. Повторне тестування зазвичай називають ретестом. Узгодженість тесту характеризується незалежністю результатів тестування від особистих якостей особи, яка проводить або оцінює тест.

Якщо всі тести, що входять до якогось комплексу тестів, високо еквівалентні, він називається гомогенним. Весь цей комплекс вимірює одну якусь властивість моторики людини (наприклад, комплекс, що складається зі стрибків з місця в довжину, вгору та потрійного; оцінюється рівень розвитку швидкісно-силових якостей). Якщо в комплексі немає еквівалентних тестів, тобто тести, що входять до нього, вимірюють різні властивості, то він називається гетерогенним (наприклад, комплекс, що складається зі станової динамометрії, стрибка вгору по Абалакову, бігу на 100 м).

Надійність тестів може бути підвищена до певної міри шляхом: n n n а) суворішої стандартизації тестування; б) збільшення кількості спроб; в) збільшення числа оцінювачів (суддів, експериментів) та підвищення узгодженості їх думок; г) збільшення кількості еквівалентних тестів; д) кращої мотиваціїдосліджуваних.

Перший компонент теорія тестів містить опис статистичних моделей обробки діагностичних даних. Тут містяться моделі аналізу відповідей у ​​тестових завданнях та моделі підрахунку сумарних результатів тесту. Мелленберг (1980, 1990) назвав це "психометрією". Класична теорія тестів, сучасна теорія тестів (або модель аналізу відповідей на завдання тестів - IRT) та модель


вибірки завдань складають три найбільш важливих типумоделей теорії тестів Предметом розгляду психодіагностики є перші дві моделі.

Класична теорія тестів. На основі цієї теорії розроблено більшість інтелектуальних та особистісних тестів. Центральним поняттямцією теорією є поняття «надійності». Під надійністю розуміється узгодженість результатів при повторному оцінюванні. У довідкових посібниках це поняття зазвичай надається дуже коротко, а потім дається докладний описапарату математичної статистики У цьому вступному розділі ми представимо стислий опис основного значення зазначеного поняття. У класичної теорії тестів під надійністю розуміється повторюваність результатів кількох процедур виміру (переважно вимірів з допомогою тестів). Поняття надійності передбачає обчислення помилки виміру. Результати, отримані в процесі тестування, можуть бути подані як сума істинного результату та помилки виміру:

Xi = Ti+ Їй

де Xi- Оцінка отриманих результатів, Ti - справжній результат, а Їй- Помилка вимірювання.

Оцінка одержаних результатів – це, як правило, кількість правильних відповідей на завдання тесту. Справжній результат можна як справжню оцінку в платонівському сенсі (Gulliksen, 1950). Широко поширеним є поняття очікуваних результатів, тобто. уявлень про бали, які можуть бути отримані внаслідок великої кількості повторень процедур вимірювання (Lord & Novich, 1968). Але проведення однієї й тієї ж процедури оцінювання з однією людиною неможливо. Тому необхідний пошук інших варіантів вирішення проблеми (Witlman, 1988).

У рамках цієї концепції робляться деякі припущення щодо справжніх результатів та помилок виміру. Останні приймаються як незалежний фактор, що, звичайно, є цілком обґрунтованим припущенням, тому що випадкові коливання результатів не дають підступів: r ЇЇ =0.

Передбачається, що кореляції між істинними балами та помилками виміру не існує: r EE =0.


Сумарна помилка дорівнює 0 т.к. як справжня оцінка береться середнє арифметичне значення:

Ці припущення призводять нас до відомого визначення надійності як ставлення справжнього результату до загальної дисперсіїабо виразу: 1 мінус відношення, у чисельнику якого помилка виміру, а в знаменнику - загальна дисперсія:


, АБО

З цієї формули визначення надійності отримуємо, що дисперсія помилки S 2 (E)дорівнює загальної дисперсії в числі випадків (1 - r XX "); таким чином, стандартна помилка виміру визначається за формулою:

Після теоретичного обґрунтуваннянадійності та її похідних необхідно визначити індекс надійності того чи іншого тесту. Існують практичні процедури оцінювання надійності тестів, такі як використання взаємозамінних форм (паралельні тести), розщеплення завдань на дві частини, повторне тестування та вимірювання внутрішньої узгодженості. Кожен довідник містить індекси сталості тестових результатів:

r XX ' =r(x 1 , x 2)

де r XX ’ - Коефіцієнт стабільності, а x 1 і x 2 - Результати двох вимірів.

Поняття надійності взаємозамінних форм запроваджено та розроблено Гулліксеном (1950). Ця процедура досить трудомістка, оскільки пов'язана з необхідністю створення паралельної серії завдань

r XX ' =r(x 1 , x 2)

де r XX ’ - Коефіцієнт еквівалентності, а x 1 і x 2 - Два паралельні тести.

Наступна процедура – ​​розщеплення основного тесту на дві частини А та В – більш проста у використанні. Показники, отримані з обох частин тесту, корелюються. За допомогою формули Спірмена-Брауна оцінюється надійність тесту загалом:

де А і В – дві паралельні частини тіста.

Наступний метод – визначення внутрішньої узгодженості виконання завдань тесту. Цей метод ґрунтується на визначенні підступів окремих завдань. Sg - дисперсія довільно обраного завдання, та Sgh - коваріація двох довільно обраних завдань. Найчастіше використовуваний коефіцієнт визначення внутрішньої узгодженості - це «коефіцієнт альфа» Кронбаха. Використовуються також формула КР20 та λ-2(лямбда-2).

У класичній концепції надійності визначаються помилки виміру, що виникають як у процесі тестування, і у процесі спостережень. Джерела цих помилок різні: це можуть бути і особистісні особливості, та особливості умов тестування, і самі тестові завдання. Існують конкретні методиобчислення помилок. Ми знаємо, що наші спостереження можуть виявитися помилковими, наші методичні інструменти недосконалі так само, як і самі люди. (Як не згадати Шекспіра: «Ненадійна ти, чиє ім'я людина»). Те, що в класичній теорії тестів помилки виміру експлікуються та пояснюються, є важливим позитивним моментом.

Класична теорія тестів має низку суттєвих особливостей, які можна розглядати і як її недоліки. Деякі з цих характеристик відзначаються в довідниках, але їх значення (з життєвої точки зору) підкреслюється нечасто, як не наголошується і на тому, що з теоретичної чи методичної точки зору їх слід вважати недоліками.

Перше. Класична теорія тестів і поняття надійності орієнтовані на підрахунок сумарних тестових показників, що є результатом складання оцінок, отриманих в окремих завданнях. Так, під час роботи


Друге. Коефіцієнт надійності передбачає оцінку величини розкиду показників, що вимірюються. Звідси випливає, що коефіцієнт надійності буде нижчим, якщо (при рівності інших показників) вибірка є одноріднішою. Немає єдиного коефіцієнта внутрішньої узгодженості завдань тесту, цей коефіцієнт завжди «контекстуальний». Крокер і Альджина (1986), наприклад, пропонують спеціальну формулу «корекції для гомогенної вибірки», призначену для найвищих і найнижчих результатів, отриманих тестування. Для діагноста важливо знати характеристики варіацій у вибіркової сукупності, інакше він зможе використовувати коефіцієнти внутрішньої узгодженості, зазначені у посібнику до цього тесту.

Третє. Феномен зведення до показника середнього арифметичного є наслідком класичної концепції надійності. Якщо оцінка в тесті коливається (тобто вона недостатньо надійна), то цілком можливо, що при повторенні процедури суб'єкти, які мають низькі показники, отримають більше високі бали, і навпаки, суб'єкти з високими показниками – низькі. Цей артефакт процедури виміру не можна помилково прийняти за справжнє зміна чи прояв процесів розвитку. Але водночас розмежувати їх важко, т.к. ніколи не можна виключити можливість зміни у ході розвитку. Для повної впевненості необхідне порівняння з контрольною групою.

Четверта характеристика тестів, розроблених відповідно до принципів класичної теорії, - наявність нормативних даних. Знання тестових норм дозволяє досліднику адекватно інтерпретувати результати тестованих. Поза нормами тестові оцінки позбавлені сенсу. Вироблення тестових норм - це досить дороге підприємство, оскільки психолог має отримати результати тестування на репрезентативній вибірці.

2 Я. тер Лаак

Якщо говорити про недоліки класичної концепції надійності, то тут доречно навести висловлювання Сій-тсма (1992, р. 123-125). Він зазначає, що перше і головне припущення класичної теорії тестів у тому, що тестові результати підкоряються інтервальному принципу. Проте жодних досліджень, які б підтверджували це припущення, немає. По суті, це «вимірювання за довільно встановленим правилом». Ця особливість ставить класичну теорію тестів менш вигідне становище проти шкалами виміру установок і, звісно ж, проти сучасної теорією тестів. Багато методів аналізу даних (дисперсійний аналіз. регресійний аналіз, кореляційний та факторний аналіз) засновані на допущенні існування інтервальної шкали. Проте воно немає твердого обгрунтування. Розглядати шкалу справжніх результатів як шкалу значень психологічних характеристик(наприклад, арифметичних здібностей, інтелекту, нейротизму) можна лише приблизно.

Друге зауваження стосується того, що результати виконання тесту - це абсолютні показники тієї чи іншої психологічної характеристики тестованого, їх необхідно розглядати лише як результати виконання того чи іншого тесту. Два тести можуть претендувати на вивчення одних і тих же психологічних характеристик (наприклад, інтелекту, вербальних здібностей, екстраверсії), але це не означає, що ці два тести рівноцінні і мають однакові можливості. Порівняння показників двох людей, які пройшли тестування різними тестами, є некоректним. Те саме стосується і до заповнення двох різних тестів одним випробуваним. Третє зауваження відноситься до припущення, що стандартна помилка вимірювання однакова стосовно будь-якого рівня вимірюваних здібностей індивіда. Проте немає емпіричної перевірки цього припущення. Так, наприклад, немає гарантії того, що тестований з хорошими математичними здібностями під час роботи з відносно простим арифметичним тестом отримає високі бали. У цьому випадку високу оцінку швидше отримає людина з низькими чи середніми здібностями.

У рамках сучасної теорії тестів або теорії аналізу відповідей у ​​завданнях тесту міститься опис великого


кількості моделей можливих відповідей респондентів Ці моделі розрізняються покладеними в їх основу припущеннями, а також вимогами щодо даних, що одержуються. Модель Раша часто розглядається як синонім теорій аналізу відповідей у ​​завданнях тесту (1RT). Насправді це лише одна з моделей. Подана в ній формула для опису характеристичної кривої завдання g виглядає так:

де g- окреме завданнятіста; ехр- функція експоненти (нелінійна залежність); δ («дельта») - рівень складності тесту.

Інші завдання тесту, наприклад h,також одержують власні характеристичні криві. Виконання умови δ h >δ g (gозначає, що h- Більше важке завдання. Отже, для будь-якого значення показника Θ («тета» - латентні властивості здібностей тестованих) ймовірність успішного виконання завдання hменше. Ця модель називається строгою, оскільки очевидно, що за низького ступеня вираженості риси ймовірність виконання завдання близька до нуля. У цій моделі немає місця вгадуванням та припущенням. Для завдань із варіантами вибору немає необхідності робити припущення про можливість успіху. Крім того, ця модель сувора в тому сенсі, що всі завдання тесту повинні мати однакову дискримінативну здатність (висока дискримінативність відображається в крутості кривої; тут можлива побудова шкали Гут-тмана, згідно з якою в кожній точці характеристичної кривої ймовірність виконання завдання змінюється від ПРО до 1). Через це умови не всі завдання можуть бути включені до тестів, створених на основі моделі Раша.

Існує кілька варіантів цієї моделі (наприклад, Birnbaura, 1968, Див. Lord & Novik). Вона допускає існування завдань з різною дискримінативною

здатністю.

Голландський дослідник Моккен (1971) розробив дві моделі аналізу відповідей у ​​завданнях тесту, вимоги яких так суворі, як і моделі Раша, і тому, можливо, більш реалістичні. Як основний усло-

Моккен висуває положення про те, що характеристична крива завдання повинна слідувати монотонно, без обривів. Усі завдання тесту у своїй спрямовані вивчення однієї й тієї психологічної характеристики, вимірювати яку має в.Допускається будь-яка форма цієї залежності, доки вона не перерветься. Отже, форма характеристичної кривої не визначається якоюсь специфічною функцією. Така «свобода» дозволяє використовувати більше завдань тесту, і рівень оцінювання при цьому виявляється не вищим, ніж звичайний.

Методологія моделей відповідей на завдання тесту (IRT) відрізняється від методології більшості експериментальних та кореляційних досліджень. Математична модель варта вивчення поведінкових, когнітивних, емоційних показників, і навіть феноменів розвитку. Ці феномени, що розглядаються, часто обмежуються відповідями на завдання, що дозволило Мелленбергу (1990) назвати теорію IRT «міні-теорією про міні-поведінку». Результати дослідження можуть бути певною мірою представлені як криві узгодженості, особливо в тих випадках, коли теоретичні уявлення про досліджувані характеристики відсутні. До цього часу у нашому розпорядженні є лише одиниці тестів інтелекту, здібностей і особистісних тестів, створених з урахуванням численних моделей теорії IRT. Варіанти моделі Раша частіше використовуються для розробки тестів досягнень (Verhelst, 1993), а моделі Моккена більше підходять для феноменів розвитку (див. також гл. 6).

Відповідь тестованого завдання тесту є основною одиницею моделей IRT. Тип відповіді визначається ступенем вираженості в людини характеристики, що вивчається. Такою характеристикою можуть бути, наприклад, арифметичні чи просторові здібності. Найчастіше це той чи інший аспект інтелекту, характеристики досягнень чи особистісні особливості. Передбачається, що між положенням даної конкретної людини в певному діапазоні характеристики, що вивчається, і ймовірністю успішного виконання того чи іншого завдання існує нелінійна залежність. Нелінійність цієї залежності певному сенсі інтуїтивно зрозуміла. Відомі фрази «Всякий початок важко» (повільний не-


лінійний старт) та «Стати святим не так просто», означають що подальше вдосконалення після досягнення певного рівня йдеважко. Крива повільно наближається, але майже ніколи не досягає 100%-го рівня успіху.

Деякі моделі радше суперечать нашому інтуїтивному розумінню. Візьмемо такий приклад. Людина з індексом вираженості довільної характеристики рівним 1,5 має 60-відсоткову ймовірність успіху під час виконання завдання. Це суперечить нашому інтуїтивному розумінню такої ситуації, адже можна успішно впоратися із завданням, або не впоратися з ним взагалі. Візьмемо такий приклад: 100 разів людина намагається взяти висоту 1м 50 див. Успіх супроводжує йому 60 разів, тобто. він має 60-відсоткову ймовірність успіху.

Для оцінки ступеня вираженості характеристики необхідно принаймні два завдання. Модель Раша передбачає визначення виразності показників незалежно від проблеми завдання. Це також суперечить нашому інтуїтивному розумінню: припустимо, що людина має 80-відсоткову ймовірність стрибнути вище 1,30 м. Якщо це так, то відповідно до характеристичної кривої завдань вона має 60-відсоткову ймовірність стрибнути вище 1,50 м та 40-відсоткову. можливість стрибнути вище 1,70 м. Отже, незалежно від значення незалежної змінної (висоти) можна оцінити здатність людини стрибати у висоту.

Існує близько 50 моделей IRT (Goldstein & Wood, 1989). Є безліч нелінійних функцій, що описують (пояснюють) ймовірність успіху у виконанні завдання або групи завдань. Вимоги та обмеження цих моделей різні, і ці відмінності можуть бути виявлені при зіставленні моделі Раша та шкали Моккена. До вимог цих моделей можна віднести:

1) необхідність визначення досліджуваної характеристики та оцінку позиції людини у діапазоні цієї риси;

2) оцінку послідовності завдань;

3) перевірку конкретних моделей. У психометрії розроблено безліч процедур перевірки моделі.

У деяких довідкових посібниках теорія IRT сприймається як форма аналізу завдань тесту (див., наприклад,

Croker & Algina, J 986). Можна, проте, обстоювати той погляд, що теорія IRT - це «міні-теорія про міні-поведінці». Прихильники теорії IRT зауважують, що якщо недосконалі концепції (моделі) середнього рівня, то що ж можна сказати про складніші конструкти в психології?

Класична та сучасна теорія тестів. Люди не можуть не порівнювати речі, які виглядають майже однаково. (Можливо, життєвий еквівалент психометрії і полягає, головним чином, у порівнянні людей за значущими характеристиками та вибором між ними). Кожна з представлених теорій - і теорія виміру помилок оцінювання, і математична модель відповіді завдання тесту - має своїх прибічників (Goldstein & Wood, 1986).

Моделі IRT не викликають закидів у тому, що це "оцінювання за правилами", на відміну від класичної теорії тестів. Модель IRT орієнтована аналіз оцінюваних характеристик. Характеристики особистості та характеристики завдань оцінюються за допомогою шкал (порядкових чи інтервальних). Понад те, можливе зіставлення показників виконання різних тестів, вкладених у вивчення подібних характеристик. Нарешті, надійність неоднакова кожного значення на шкалі, а середні показники зазвичай є більш надійними, ніж показники, розташовані на початку і наприкінці шкали. Таким чином, моделі IRT у теоретичному відношенні видаються більш досконалими. Існує і відмінності в практичному використаннісучасної теорії тестів та класичної теорії (Sijstma, 1992, стор 127-130). Сучасна теорія тестів складніша порівняно з класичною, тому вона рідше використовується нефахівцями. Понад те, IRT пред'являє особливі вимоги до завдань. Це означає, що завдання повинні бути виключені з тесту, якщо вони не відповідають вимогам моделі. Це правило відноситься далі до тих завдань, які входили до складу широко використовуваних тестів, побудованих за принципами класичної теорії. Тест стає коротшим, і, отже, надійність його знижується.

IRT пропонує математичні моделі вивчення реальних феноменів. Моделі повинні допомогти нам зрозуміти ключові аспекти цих феноменів. Однак тут криється основне теоретичне питання. Моделі можна розглянути-


вати як підхід до вивчення складної реальності, в якій ми живемо. Але модель і реальність - не те саме. Відповідно до песимістичного погляду, можливе моделювання лише одиничних (і до того ж не найцікавіших) типів поведінки. Також можна зустріти твердження, що реальність взагалі підлягає моделюванню, т.к. вона підпорядковується не лише причинно-наслідковим законам. У кращому разі можливе моделювання окремих (ідеальних) поведінкових феноменів. Існує й інший, більш оптимістичний, погляд на можливості моделювання. Наведена вище позиція блокує можливість глибокого розуміння природи феноменів людської поведінки. Застосування тієї чи іншої моделі порушує деякі загальні, фундаментальні питання. На наш погляд, не підлягає сумніву, що IRT є концепцією теоретично та технічно перевершує класичну теорію тестів.

Практичним призначенням тестів, який би теоретичної основі де вони створювалися, є визначення значних критеріїв і встановлення їх основі характеристик тих чи інших психологічних конструктів. Чи має модель IRT переваги і щодо цього? Цілком можливо, що тести, створені на основі цієї моделі, не дають більш точного прогнозу порівняно з тестами, створеними на основі класичної теорії, і можливо, що їхній внесок у розробку психологічних конструктів не є більш вагомим. Діагности віддають перевагу таким критеріям, які безпосередньо відносяться до окремій людині, інституту чи спільноті. Модель, досконаліша у науковому відношенні, «ipso facto»* не визначає більш відповідний критерій і певною мірою обмежена у поясненні наукових конструктів. Очевидно, що розробка тестів на основі класичної теорії продовжуватиметься, але разом з тим будуть створюватись і нові моделі IRT, що поширюються на вивчення більшого числапсихологічних феноменів

У класичної теорії тестів різняться поняття «надійності» та «валідності». Тестові результати повинні бути надійні, тобто. результати початкового та повторного тестування повинні узгоджуватися. Крім того,

* ipso facto(лак) - сама по собі (прим. перекл.).

результати мають бути вільними (наскільки це можливо) від помилок оцінювання. Наявність валідності - одна з вимог, що висуваються до отриманих результатів. При цьому надійність сприймається як необхідне, але ще не достатня умовавалідності тіста.

Поняття валідності передбачає, що отримані результати відносяться до чогось важливого у практичному чи теоретичному відношенні. Висновки, зроблені на основі тестових оцінок, мають бути валідними. Найчастіше говорять про два види валідності: прогностичної (критеріальної) та конструктної. Існують також інші види валідності (див. гл. 3). Крім того, валідність може бути визначена і у разі квазіекспериментів (Cook & Campbell, 1976, Cook & Shadish, 1994). Однак основним видом валідності все ж таки є прогностична валідність, під якою розуміється можливість передбачати за тестовим результатом щось суттєве про поведінку в майбутньому, а також можливість глибшого розуміння того чи іншого психологічної властивостіабо якість.

Подані типи валідності обговорюються у кожному довіднику та супроводжуються описом методів аналізу валідності тесту. Факторний аналіз найбільше підходить для визначення конструктної валідизації, а рівняння лінійної регресії використовуються для аналізу прогностичної валідності. Ті чи інші характеристики (успішність, ефективність терапії) можуть бути передбачені на основі одного або декількох показників, отриманих при роботі з інтелектуальними або особистісними тестами. Такі техніки обробки даних, як кореляційний, регресійний, дисперсійний аналіз, аналіз часткових кореляцій та дисперсій, служать визначення прогностичної валідності тесту.

Також часто описується змістовна валідність. Передбачається, що всі завдання та завдання тесту повинні належати до специфічної галузі (психічних властивостей, поведінки тощо). Поняття змістовної валідності характеризує відповідність кожного завдання тесту вимірюваної області. Змістовна валідність іноді розглядається як частина надійності або узагальнюваність (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Однак при


Виборі завдань для тестів досягнень у конкретній предметній області важливо також звертати увагу на правила включення завдань до тесту.

У класичній теорії тестів надійність та валідність розглядаються відносно незалежно один від одного. Але є й інше розуміння співвідношення цих понять. Сучасна теоріятестів ґрунтується на застосуванні моделей. Параметри оцінюються всередині певної моделі. Якщо завдання відповідає вимогам моделі, то рамках цієї моделі воно визнається невалідним. Конструктна валідизація є частиною перевірки самої моделі. Ця валідизації відноситься головним чином до перевірки існування одномірної латентної риси досліджуваної з відомими шкальними характеристиками. Шкальні оцінки, безсумнівно, можуть бути використані для визначення відповідних критеріїв, і можлива їхня кореляція з показниками інших конструктів для збору інформації про конвергентну та дивергентну валідність конструкту.

Психодіагностика аналогічна мові, що описується як єдність чотирьох компонентів, представлених на трьох рівнях. Перший компонент, теорія тестів, аналогічний синтаксису, граматиці мови. Породжувальна (генеративна) граматика - це, з одного боку, дотепна модель, з іншого - система, що підкоряється правилам. За допомогою цих правил на основі простих ствердних пропозиційбудуються складні. Однак, дана модель залишає осторонь опис того, як організований процес комунікації (що передається і що сприймається), і з якими цілями він здійснюється. Для цього потрібні додаткові знання. Те саме можна сказати і про теорію тестів: вона є необхідною в психодіагностиці, але вона не здатна пояснити, що психодіагност робить і які його цілі.

1.3.2. Психологічні теоріїта психологічні конструкти

Психодіагностика – це завжди діагностика чогось конкретного: особистісних характеристик, поведінки, мислення, емоції. Тести призначені для оцінювання індивідуальних відмінностей. Існує кілька концепцій

індивідуальних відмінностей, кожна з яких має відмінні риси. Якщо визнається, що психодіагностика не обмежується лише оцінкою індивідуальних відмінностей, то тоді й інші теорії набувають істотного значення для психодіагностики. Прикладом є оцінка відмінностей процесів психічного розвитку та відмінностей у соціальному оточенні. Хоча оцінка індивідуальних відмінностей не є неодмінним атрибутом психодіагностики, проте існують певні традиції дослідження у цій галузі. Психодіагностика починалася з оцінки відмінностей інтелекту. Основним завданням тестів було визначення спадкової передачі геніальності (Gallon) або відбір дітей для навчання (Binet, Simon). Вимір коефіцієнта інтелектуальності отримало теоретичне осмислення і практичну розробку в працях Спірмена (Великобританія) і Терстоуна (США). Раймонд Б.Кеттел зробив таке для оцінки особистісних характеристик. Психодіагностика стає нерозривно пов'язаною з теоріями та уявленнями про індивідуальні відмінності у досягненнях (оцінка граничних можливостей) та форми поведінки (рівень типового функціонування). Ця традиція продовжує залишатись ефективною і сьогодні. У навчальних посібникахз психодіагностики набагато рідше оцінюються відмінності у соціальному оточенні проти розглядом особливостей самих процесів розвитку. Для цього немає жодних розумних пояснень. З одного боку, діагностика не обмежується певними теоріями та поняттями. З іншого боку, вона потребує теорій, оскільки саме їх визначається діагностується зміст (тобто. «що» діагностується). Так, наприклад, інтелект може розглядатися і як Загальна характеристикаі як основа для безлічі незалежних один від одного здібностей. Якщо психодіагностика намагається «відійти» від тієї чи іншої теорії, то тоді основою психодіагностичного процесу стають уявлення здорового глузду. У дослідженнях застосовуються різні способианалізу даних, та загальна логікадосліджень визначає вибір тієї чи іншої математичної моделі та визначає структуру використовуваних психологічних понять. Такі методи математичної статистики


ки, як дисперсійний аналіз, регресійний аналіз, факторний аналіз, підрахунок кореляцій передбачають існування лінійних залежностей. У разі некоректного застосування цих методів вони «привносять» свою структуру в отримані дані та конструкти, що використовуються.

Уявлення про відмінності у соціальному оточенні та про розвиток особистості майже не вплинули на психодіагностику. У навчальних посібниках (див., наприклад, Murphy & Davidshofer, 1988) розглядається класична теоріятестів та обговорюються відповідні методи статистичної обробки, описуються відомі тести, Розглядаються питання використання психодіагностики в практиці: в психології управління, при відборі персоналу, при оцінці психологічних характеристик людини.

Теорії індивідуальних відмінностей (а також уявлення про відмінності між соціальним оточеннямі про психічний розвиток) аналогічні до вивчення семантики мови. Це вивчення і сутності, змісту, і значення. Значення структуруються певним чином (подібно до психологічних конструктів), наприклад, за подібністю або контрастом (аналогія, конвергенція, дивергенція).

1.3.3. Психологічні тести та інші методичні засоби

Третій компонент запропонованої схеми – тести, процедури та методичні засоби, за допомогою яких відбувається збір інформації про характеристики особистості. Дрені та Сійтсма (1990, стор. 31) дають таке визначення тестам: «Психологічний тест розглядається як класифікація згідно певній системіабо як процедура вимірювання, яка дозволяє винести певне судження про одну або декілька емпірично виділених або теоретично обґрунтованих характеристик конкретної сторони поведінки людини (за рамками тестової ситуації). При цьому розглядається реакція респондентів на певну кількість ретельно підібраних стимулів, а отримані відповіді порівнюються із тестовими нормами».

Діагностиці необхідні тести та методики для збору надійної, точної та валідної інформації про особливості

і характерні риси особистості, про мислення, емоції та поведінку людини. Крім розробки тестових процедур цей компонент входять також наступні питання: як створюються тести, як формулюються та відбираються завдання, як протікає процес тестування, які вимоги до умов проведення тестування, як враховуються помилки вимірювання, як підраховуються та інтерпретуються тестові результати.

У процесі розробки тестів різняться раціональна та емпірична стратегія. Застосування раціональної стратегії починається з визначення основних понять (наприклад, поняття інтелекту, екстраверсії), і відповідно до цих уявлень формулюються завдання тесту. Прикладом такої стратегії може бути концепція аспектного аналізу (the facet theory) Гуттмана (1957, 1968, 1978). Спочатку визначаються різні аспекти основних конструктів, потім підбираються завдання та завдання таким чином, щоб було враховано кожен із цих аспектів. Друга стратегія у тому, що завдання підбираються на емпіричній основі. Наприклад, якщо дослідник спробує створити тест професійних інтересів, який дозволяв би диференціювати медиків від інженерів, то процедура має бути такою. Обидві групи респондентів повинні відповісти на всі завдання тесту, і ті пункти, у відповідях на які виявлено статистично значущі відмінності, входять до остаточного варіанта тесту. Якщо, наприклад, між групами існують відмінності у відповідях твердження «Я люблю ловити рибу», це твердження стає елементом тесту. Основним становищем цієї книги є те, що тест пов'язаний з концептуальною або таксономічною теорією, яка визначає ці характеристики.

Призначення тесту зазвичай визначено в інструкції щодо його застосування. Тест має бути стандартизований для того, щоб за його допомогою можна було оцінити різницю між людьми, а не між умовами тестування. Існують, однак, відхилення від стандартизації у процедурах, які називаються «тестуванням меж можливостей» (testing the limits) та «тести оцінки потенційних можливостей у навчанні» (learning potential tests). У цих умовах респондентові надається допомога у процесі


тестування та потім оцінюється вплив такої процедури на результат. Підрахунок балів за відповіді завдання об'єктивний, тобто. здійснюється відповідно до стандартної процедури. Інтерпретація одержаних результатів також суворо визначена та здійснюється на основі тестових норм.

Третій компонент психодіагностики – психологічні тести, інструменти, процедури – містить певні завдання, які є найменшими одиницями психодіагностики та в цьому сенсі завдання аналогічні фонемам мови. Число можливих поєднань фонем обмежено. Лише певні фонематичні структури можуть утворювати слова та речення, що забезпечують доведення інформації до слухача. Також ітестові завдання: лише у певному поєднанні один з одним вони можуть стати ефективним засобомоцінки відповідного конструкту

Надіслати свою гарну роботу до бази знань просто. Використовуйте форму нижче

гарну роботуна сайт">

Студенти, аспіранти, молоді вчені, які використовують базу знань у своєму навчанні та роботі, будуть вам дуже вдячні.

Розміщено на http://www.allbest.ru/

1. ОСНОВНІ ПОНЯТТЯ

Тестом називається вимір чи випробування, яке з метою визначення стану чи здібностей спортсмена. Процес випробувань називається тестуванням: отримане результаті вимірювання числове значення -- результатом тестування (чи результатом тесту). Наприклад, біг 100м – це тест, процедура проведення забігів та хронометражу – тестування, час бігу – результат тесту.

Тести, основу яких лежать рухові завдання, називають руховими (чи моторними). У цих тестах як результати можуть виступати або рухові досягнення (час проходження дистанції, кількість повторень, пройдена відстань тощо), або фізіологічні та біохімічні показники. Залежно від цього, і навіть від завдання, що стоїть перед досліджуваним, розрізняють три групи рухових тестів (табл. А).

Таблиця А. Різновиди рухових випробувань.

Назва тесту

Завдання спортсмену

Результати тесту

Контрольні вправи

Двигунське досягнення

Біг 1500м, час бігу

Стандартні функціональні проби

Однакове для всіх, дозується або: а) за величиною виконаної роботи, або: б) за величиною фізіологічних зрушень

Фізіологічні або біохімічні показники при стандартній роботі Двигуни при стандартній величині фізіологічних зрушень

Реєстрація ЧСС при стандартній роботі 1000 км/хв. Швидкість бігу при пульсі 160 уд/хв, проба ПВЦ (170)

Максимальні функціональні проби

Показати максимальний результат

Фізіологічні чи біохімічні показники

Визначення максимального кисневого боргу чи максимального споживання кисню

Іноді використовується не один, а кілька тестів, що мають єдину кінцеву мету (наприклад, оцінку стану спортсмена у періоді змагання тренування). Така група називаєте комплексом або батареєю тестів. Не всі виміри можуть бути використані як тести. Для цього вони мають відповідати спеціальним вимогам. До них належать: 1) надійність тесту; 2) інформативність тесту; 3) наявність системи оцінок (див.- наступний розділ); 4) стандартність - процедура та умови тестування повинні бути однаковими у всіх випадках застосування тесту. Тести, що задовольняють вимогам надійності та інформативності, називають добротними або автентичні.

2. НАДІЙНІСТЬ ТЕСТІВ

2.1 Поняття про надійність тестів

тестування фізичний третбан

Надійністю тестів називають ступінь збігу результатів при повторному тестуванні тих самих людей (чи інших об'єктів) в однакових умовах. В ідеалі один і той же тест, застосований до тих самих випробуваних у тих самих умовах, повинен давати однакові результати. Однак навіть за найсуворішої стандартизації випробувань і точної апаратури результати тестування завжди дещо варіюють. Наприклад, спортсмен, який щойно витиснув на кистьовому динамометрі 55 кг, за кілька хвилин покаже лише 50 кг. Подібну варіацію називають внутрішньо-індивідуальною або (використовуючи більш загальну термінологію математичної статистики) внутрішньокласової. Її викликають чотири основні причини:

зміна стану випробуваних (втома, впрацьовування, навчення, зміна мотивації, концентрації уваги тощо);

неконтрольовані зміни зовнішніх умов та апаратури (температури та вологості повітря, напруги в електромережі, присутність сторонніх осіб, вітер тощо);

зміна стану особи, яка проводить або оцінює тест, заміна одного експериментатора чи судді іншим;

недосконалість тесту (є такі тести, які свідомо малонадійні, наприклад штрафні кидки до баскетбольного кошика до першого промаху; навіть спортсмен, що має високий відсоток влучення, може випадково помилитися при перших кидках).

В ідеї методів, які використовуються для міркування про надійність тестів, допоможе розібратися наступний спрощений приклад. Припустимо, що хочуть порівняти результати стрибків у довжину з місця у двох спортсменів із двох виконаних спроб. За бажання зробити точні висновки не можна обмежуватися реєстрацією лише кращих результатів. Припустимо, що результати кожного зі спортсменів варіюють у межах ±10 см від середньої величиниі рівні відповідно 220 ± 10 см (тобто 210 і 230 см) та 320 ± 10 см (тобто 310 і 330 см). У такому разі висновок, звичайно, буде абсолютно однозначним: другий спортсмен перевершує першого. Відмінність між результатами (320 см-220 см = 100 см) явно більше випадкових коливань (±10 см). Набагато меншим буде

Рис. 1. Співвідношення між- та внутрішньокласової варіації при високій (вгорі) і низькій (внизу) надійності.

Короткі вертикальні штрихи - дані окремих спроб, Х і А"2, Х3 - середні результати трьох піддослідних

висновок, якщо за тієї ж самої внутрішньокласової варіації (рівною ±10 см) різницю між випробуваними (міжкласова варіація) буде маленьким. Скажімо, середні значення дорівнюватимуть 220 см (в одній спробі 210 см, в іншій 230 см) і 222 (212 і 232 см). Тоді може статися, наприклад, що в першій спробі перший спортсмен стрибне 230 см, а другий - тільки 212, і створиться враження, що перший істотно сильніший за другий.

З прикладу видно, що основне значення має не по собі внутрішньокласова мінливість, а її співвідношення з міжкласовими відмінностями. Одна і та ж внутрішньокласова варіація дає різну надійність при різних відмінностяхміж класами (в окремому випадку випробуваними, рис. 1).

Теорія надійності тесту виходить з того, що результат будь-якого вимірювання, що проводиться на людину, - Х (- є сума двох величин:

Х ^ Хоо + Хе, (1)

де Х х - так званий справжній результат, який хочуть зафіксувати;

Х е -помилка, викликана неконтрольованою варіацією в стані випробуваного, що привноситься вимірювальним приладом та ін.

Під справжнім результатом за визначенням розуміють середнє значення X^ при нескінченно великому числіспостережень в однакових умовах (тому за X і ставлять знак нескінченності оо).

Якщо помилки випадкові (їх сума дорівнює нулю, і в різних спробах вони не залежать одна від одної), тоді з математичної статистики випливає:

О/ = Ооо Т<З е,

тобто зареєстрована в досвіді дисперсія результатів (ст/2) дорівнює сумі дисперсій дійсних результатів ((Хм 2) та помилок (0 е 2).

Ооо 2 характеризує ідеалізовану (тобто вільну від помилок) міжкласову варіацію, а е 2 --внутрішньокласову мінливість. Вплив про 2 змінює розподіл результатів тесту (рис.2).

За визначенням коефіцієнт надійності (Гц) дорівнює відношенню істинної дисперсії до дисперсії, зареєстрованої у досвіді:

Іншими словами, г п є просто частка істинної варіації у тій варіації, яка зареєстрована у досвіді.

Крім коефіцієнта надійності використовують ще індекс надійності:

який розглядають як теоретичний коефіцієнт кореляції зареєстрованих значень тесту з дійсними. Користуються також поняттям про стандартну помилку надійності, під якою розуміють середнє квадратичне відхилення зареєстрованих результатів тесту (Х () лінії регресії, що пов'язує значення Х г із справжніми результатами (X») - рис. 3).

2.2 Оцінка надійності за експериментальними даними

Поняття про справжній результат тесту є абстракцією. Хое в досвіді виміряти не можна (адже не можна насправді провести нескінченно велику кількість спостережень в однакових умовах). Тому доводиться використовувати непрямі методи.

Найкращий для оцінки надійності дисперсійний аналіз з наступним розрахунком так званих внутрішньокласових коефіцієнтів кореляції.

Дисперсійний аналіз, як відомо, дозволяє розкласти зареєстровану у досвіді варіацію результатів тесту на складові, зумовлені впливом окремих факторів. Наприклад, якщо зареєструвати у випробуваних їх результати в якомусь тесті, повторюючи цей тест у різні дні, причому в кожен з днів робити по кілька спроб, періодично змінюючи експериментаторів, то матиме місце варіація:

а) від випробуваного до випробуваного (міжіндивідуальна варіація),

б) від дня до дня,

в) від експериментатора до експериментатора,

г) від спроби до спроби.

Дисперсійний аналіз дає можливість виділити та оцінити варіації, спричинені цими факторами.

Спрощений приклад свідчить, як це робиться. Припустимо, що у 5 піддослідних виміряли результати двох спроб (к = 5, п = 2)

Результати дисперсійного аналізу (див. курс математичної статистики, а також додаток 1 до першої частини книги) наведено у традиційній формі у табл. 2.

Таблиця 2

Надійність оцінюється за допомогою так званого внутрішньокласового коефіцієнта кореляції:

де г"і - коефіцієнт внутрішньокласової кореляції (коефіцієнт надійності, який, щоб відрізнити його від звичайного коефіцієнта кореляції (г), позначають з додатковим штрихом (г")"

п - використане в тесті кількість спроб;

п" - кількість спроб, для якого проводиться оцінка надійності.

Наприклад, якщо хочуть оцінити за даними наведеного прикладу надійність середньої із двох спроб, то

Якщо обмежитися лише однією спробою, то надійність дорівнюватиме:

а якщо збільшити кількість спроб до чотирьох, коефіцієнт надійності також дещо зросте:

Отже, щоб оцінити надійність, треба, по-перше, виконати дисперсійний аналіз і, по-друге, розрахувати внутрішньокласовий коефіцієнт кореляції (коефіцієнт надійності).

Деякі складнощі виникають, коли має місце так званий тренд, тобто систематичне підвищення чи зниження результатів від спроби до спроби (рис. 4). У цьому випадку використовують складніші методи оцінки надійності (у цій книзі вони не описані).

Для двох спроб і відсутності тренда величини внутрішньокласового коефіцієнта кореляції практично збігаються зі значеннями звичайного коефіцієнта кореляції між результатами першої і другої спроб. Тому в таких ситуаціях для оцінки надійності може використовуватись і звичайний коефіцієнт кореляції (він при цьому оцінює надійність однієї, а не двох спроб). Однак, якщо кількість повторних спроб у тесті більше двох і особливо якщо використовуються складні схеми тестування,

Рис. 4. Серії з шести спроб, з яких три перші (іл. зліва) або три останні (праворуч) схильні до тренду

(Наприклад, по 2 спроби на день протягом двох днів), необхідний розрахунок внутрішньокласового коефіцієнта.

Коефіцієнт надійності не є абсолютним показником, що характеризує тест. Цей коефіцієнт може змінюватися в залежності від контингенту піддослідних (наприклад, бути різним у початківців та кваліфікованих спортсменів), умов тестування (чи проводяться повторні спроби одна за одною або, скажімо, з інтервалом в один тиждень) та інших причин. Тому завжди треба описувати, як і на кому проводився тест.

2.3 Надійність у практиці роботи з тестами

Ненадійність експериментальних даних знижує величину оцінок коефіцієнтів кореляції. Оскільки жоден тест не може корелювати з іншим тестом більше, ніж із собою, верхньою межею оцінки коефіцієнта кореляції тут є вже не ±1.00, а індекс надійності

г (оо = У~г і

Щоб оцінити коефіцієнти кореляції між емпіричними даними перейти до оцінок кореляції між істинними значеннями, можна скористатися виразом

де г ху - Кореляція між істинними значеннями X і У;

1~ху - кореляція між емпіричними даними; ГцІ-оцінка надійності X і У.

Наприклад, якщо г ху = 0,60, г хж = 0,80 і г уу = 0,90 то кореляція між істинними значеннями дорівнює 0,707.

Наведена формула (6) називається корекцією на зменшення (або формулою Спірмена - Броуна), вона постійно використовується на практиці.

Немає фіксованого значення надійності, яке б вважати тест прийнятним. Все залежить від важливості висновків, зроблених на основі застосування тіста. - хороша, 0,80-0,89 - прийнятна, 0,70-0,79 - погана, 0,60-0,69 - для індивідуальних оцінок сумнівна, тест придатний лише для характеристики групи піддослідних.

Досягти деякого підвищення надійності тесту можна, збільшуючи кількість повторних спроб. Ось як, наприклад, в експерименті зростала надійність тесту (метання гранати 350 г з розбігу) у міру збільшення числа спроб: 1 спроба - 0,53, 2 спроби - 0,72, 3 спроби - 0,78, 4 спроби - 0,80, 5 спроб - 0,82, 6 спроб - 0,84. З прикладу видно, що якщо спочатку надійність зростає швидко, то після 3-4 спроб приріст суттєво уповільнюється.

При кількох повторних спробах результати можна визначати різними способами: а) за кращою спробою; б) за середньою арифметичною величиною; в) за медіаною; г) за середньою з двох або трьох кращих спроб тощо. найбільш надійним є використання середньої арифметичної величини, дещо менш надійна медіана, ще менш надійна найкраща спроба.

Говорячи про надійність тестів, розрізняють їхню стабільність (відтворюваність), узгодженість, еквівалентність.

2.4 Стабільність тесту

Під стабільністю тесту розуміють відтворюваність результатів при його повторенні через певний час в однакових умовах. Повторне тестування зазвичай називають ретестом. Схема оцінки стабільності тесту така: 1

При цьому розрізняють 2 випадки. В одному ретест проводять для того, щоб отримати надійні дані про стан випробуваного протягом всього часового інтервалу між тестом і ретестом (наприклад, щоб отримати надійні дані про функціональні можливості лижників у червні, вони проводять вимірювання МПК двічі з інтервалом в один тиждень). І тут важливі точні результати тесту, і надійність повинна оцінюватися з допомогою дисперсійного аналізу.

В іншому випадку може бути важливим лише збереження порядку випробуваних у групі (залишається перший першим, останній - серед останніх). У цьому випадку стабільність оцінюють за коефіцієнтом кореляції між тестом та ретестом.

Стабільність тесту залежить від:

виду тіста,

контингенту піддослідних,

тимчасового інтервалу між тестом та ретестом. Наприклад, морфологічні характеристики при невеликих

тимчасових інтервалах дуже стабільні; найменшу стабільність мають тести на точність рухів (наприклад, кидки в ціль).

У дорослих результати тестування стабільніші, ніж у дітей; у спортсменів - більш стабільні, ніж у тих, хто не займається спортом.

Зі збільшенням часового інтервалу між тестом та ретестом стабільність тесту знижується (табл. 3).

2.5 Узгодженість тесту

Узгодженість тесту характеризується незалежністю результатів тестування від особистих якостей особи, яка проводить або оцінює тест". Узгодженість визначається за ступенем збігу результатів, одержуваних на тих самих випробуваних різними експериментаторами, суддями, експертами.

Особа, яка проводить тест, лише оцінює його результати, не впливаючи на його виконання. Наприклад, ту саму письмову роботу різні екзаменатори можуть оцінити по-різному. Нерідко розрізняються оцінки суддів у гімнастиці, фігурному катанні на ковзанах, боксі, показники ручного хронометрування, оцінка електрокардіограми чи рентгенограми різними лікарями тощо.

Особа, яка проводить тест, впливає на результати. Наприклад, деякі експериментатори наполегливіші і вимогливіші, ніж інші, краще мотивують піддослідних. Це позначається на результатах (які власними силами можуть вимірюватися цілком об'єктивно).

Узгодженість тесту - це, сутнісно, ​​надійність оцінки його результатів під час проведення тесту різними людьми.

1 Замість терміна «узгодженість» часто використовують термін «об'єктивність». Таке слововживання невдало, оскільки збіг результатів різних експериментаторів чи суддів (експертів) зовсім говорить про їх об'єктивності. Вони можуть усі разом свідомо чи несвідомо помилятися, спотворюючи об'єктивну істину.

2.6 Еквівалентність тесту

Нерідко тест є результатом вибору з певної кількості однотипних тестів.

Наприклад, кидки в баскетбольний кошик можна виконувати з різних точок, спринтерський біг може проводитися на дистанції, скажімо, 50, 60 або 100 м, підтягування можна виконувати на кільцях або перекладині, хватом зверху або знизу і т. д.

У таких випадках може використовуватися так званий метод паралельних форм, коли випробовуваним пропонують виконати два різновиди одного і того ж тесту і потім оцінюють ступінь збігу результатів. Схема тестування тут така:

Розрахований між результатами тестування коефіцієнт кореляції називають коефіцієнтом еквівалентності. Ставлення до еквівалентності тестів залежить від конкретної ситуації. З одного боку, якщо два або більше тестів еквівалентні, їхнє спільне застосування підвищує надійність оцінок; з іншого - може бути корисним залишити в батареї лише один еквівалентний тест - це спростить тестування і лише трохи знизить інформативність комплексу тестів. Вирішення цього питання залежить від таких причин, як складність та громіздкість тестів, ступінь необхідної точності тестування тощо.

Якщо всі тести, що входять до якогось комплексу тестів, високо еквівалентні, він називається гомогенним. Весь цей комплекс вимірює одну якусь властивість моторики людини. Скажімо, комплекс, що складається зі стрибків з місця в довжину, вгору та потрійного, ймовірно, буде гомогенним. Навпаки, якщо в комплексі немає еквівалентних тестів, то всі тести, що входять до нього, вимірюють різні властивості. Такий комплекс називається гетерогенним. Приклад гетерогенної батареї тестів: підтягування на поперечині, нахил уперед (для перевірки гнучкості), біг 1500 м-коду.

2.7 Шляхи підвищення надійності тесту

Надійність тестів певною мірою може бути підвищена шляхом:

а) суворішої стандартизації тестування,

б) збільшення кількості спроб,

в) збільшення числа оцінювачів (суддів, експертів) та підвищення узгодженості їх думок,

г) збільшення кількості еквівалентних тестів,

буд) кращої мотивації піддослідних.

3. ІНФОРМАТИВНІСТЬ ТЕСТІВ

3.1 Основні поняття

Інформативність тесту - це ступінь точності, з якою він вимірює властивість (якість, здатність, характеристику тощо), з метою оцінки якого використовується. Інформативність нерідко називають також валідностио (від англійського уаНаНу - обґрунтованість, дійсність, законність). Допустимо, що для визначення рівня спеціальної силової підготовленості спринтерів - бігунів і плавців - хочуть використовувати такі показники: 1) кистьова динамометрія, 2) сила підошовного згинання стопи, 3) сила розгиначів плечового суглоба (ці м'язи несуть велике навантаження при плаванні кролем) 4) сила м'язів-розгиначів шиї. На основі цих тестів припускають керувати тренувальним процесом, зокрема знаходити слабкі ланки рухового апарату та цілеспрямовано зміцнювати їх. Чи добрі тести вибрано? Чи інформативні вони? Навіть не проводячи спеціальних експериментів, можна здогадатися, що другий тест, ймовірно, інформативний у спринтерів-бігунів, третій - у плавців, а перший і четвертий, напевно, ні у плавців, ні у бігунів не покажуть нічого цікавого (хоча можуть виявитися дуже корисними в інших видах спорту, наприклад, у боротьбі). У різних випадках одні й самі тести можуть мати різну інформативність.

Питання про інформативність тесту розпадається на 2 окремі питання:

Що вимірює цей тест?

Як він це робить?

Наприклад, чи можна за таким показником, як максимальне споживання кисню (МПК), судити про підготовленість бігунів-стаєрів, і якщо можна, то з яким ступенем точності. Іншими словами, якою є інформативність МПК у стаєрів? Чи можна використовувати цей тест у процесі контролю?

Якщо тест використовується визначення (діагнозу) стану спортсмена в останній момент обстеження, то говорять про діагностичної інформативності. Якщо ж на основі результатів тестування хочуть зробити висновок про можливі майбутні показники спортсмена, тест повинен мати прогностичну інформативність. Тест може бути діагностично інформативним, а прогностично немає і навпаки.

Ступінь інформативності може характеризуватись кількісно - на основі досвідчених даних (так звана емпірична інформативність) та якісно - на основі змістовного аналізу ситуації (змістовна, або логічна, інформативність).

3.2 Емпірична інформативність (випадок перший - існує критерій, що вимірюється)

Ідея визначення емпіричної інформативності полягає в тому, що результати тесту порівнюють із деяким критерієм. Для цього розраховують коефіцієнт кореляції між критерієм і тестом (такий коефіцієнт називають коефіцієнтом інформативності і позначають г гк, де I - перша літера в слові "тест", до - у слові "критерій").

Як критерій береться показник, що свідомо і безперечно відображає ту властивість, яку збираються вимірювати за допомогою тесту.

Нерідко буває так, що існує цілком певний критерій, з яким можна порівняти передбачуваний тест. Наприклад, при оцінці спеціальної підготовленості спортсменів у видах спорту з об'єктивно вимірюваними результатами таким критерієм є зазвичай сам результат: більш інформативний той тест, кореляція якого зі спортивним результатом вище. У разі визначення прогностичної інформативності критерієм є показник, прогноз якого треба здійснити (наприклад, якщо прогнозується довжина тіла дитини, критерій – довжина його тіла у дорослі роки).

Найчастіше у спортивній метрології критеріями є:

Спортивний результат.

Будь-яка кількісна характеристика основної спортивної вправи (наприклад, довжина кроку в бігу, сила відштовхування у стрибках, успішність боротьби під щитом у баскетболі, виконання подачі у тенісі або волейболі, відсоток точних довгих передач у футболі).

Результати іншого тесту, інформативність якого доведена (це роблять, якщо проведення тесту-критерію громіздко і складно і можна підібрати інший тест, настільки ж інформативний, але більш простий. Наприклад, замість газообміну визначати частоту серцевих скорочень). Цей окремий випадок, коли критерієм є інший тест, називають конкурентною інформативністю.

Належність до певної групи. Наприклад, можна порівнювати членів збірної команди країни, майстрів спорту та першорозрядників; приналежність до однієї з цих груп є критерієм. У разі використовуються спеціальні різновиду кореляційного аналізу.

Так званий складовий критерій, наприклад, сума очок у багатоборстві. При цьому види багатоборства та таблиці очок можуть бути як загальноприйнятими, так і наново складені експериментатором (про те, як складаються таблиці, див. наступну главу). До складового критерію вдаються, коли немає одиничного критерію (наприклад, якщо стоїть завдання оцінити загальну фізичну підготовленість, майстерність гравця у спортивних іграх тощо, жоден показник, узятий сам собою, не може служити критерієм).

Приклад визначення інформативності одного і того ж тесту - швидкість бігу 30 м з ходу у чоловіків - за різних умов проведено в табл.. 4.

Питання про вибір критерію є, по суті, найважливішим щодо реального значення та інформативності тесту. Наприклад, якщо стоїть завдання визначити інформативність такого тесту, як стрибок у довжину з місця у спринтерів, то можна вибрати різні критерії: результат у бігу на 100 м, довжину кроку, відношення довжини кроку до довжини ніг або до зростання тощо. тесту при цьому змінюватиметься (у наведеному прикладі вона зростала від 0,558 для швидкості бігу до 0,781 для відношення «довжина кроку/довжина ноги»).

У видах спорту, де не можна об'єктивно виміряти спортивну майстерність, намагаються обійти цю проблему запровадженням штучних критеріїв. Наприклад, у командних спортивних іграх експерти мають у своєму розпорядженні всіх гравців за їхньою майстерністю в певному порядку (тобто складають списки 20, 50 або, скажімо, 100 найсильніших гравців). Місце, зайняте спортсменом (як кажуть, його ранг), розглядається як критерій, з яким і порівнюють результати тестів з метою визначення їх інформативності.

Постає питання: навіщо використовувати тести, якщо відомий критерій? Наприклад, чи не простіше влаштувати контрольні змагання та визначити спортивний результат, ніж визначати досягнення у контрольних вправах? Застосування тестів має такі переваги:

спортивний результат не завжди можна чи доцільно визначити (наприклад, не можна часто проводити змагання у марафонському бігу, взимку зазвичай не можна зареєструвати результат у метанні списа, а влітку у лижних перегонах);

спортивний результат залежить від багатьох причин (факторів), таких, наприклад, як сила спортсмена, його витривалість, техніка тощо.

3.3 Емпірична інформативність (випадок другий - одиничного критерію немає; факторна інформативність)

Нерідко буває так, що немає одиничного критерію, з яким можна порівняти результати передбачуваних тестів. Припустимо, хочуть знайти найінформативніші тести для оцінки силової підготовленості молоді. Що віддати перевагу: підтягування на поперечині або віджимання в упорі на брусах, присідання зі штангою, тягу штанги або перехід у сід із положення лежачи на спині? Що може бути критерієм правильного вибору тесту?

Можна запропонувати випробуваним велику батарею різноманітних силових тестів, а потім відбирати серед них ті, які дають найбільшу кореляцію з результатами всього комплексу (адже не можна систематично користуватися всім комплексом - він занадто громіздкий і незручний). Ці тести будуть найінформативнішими: вони дадуть відомості про можливі результати піддослідних по всьому вихідному комплексу тестів. Але результати у комплексі тестів не виражаються одним числом. Можна утворити, звичайно, якийсь складовий критерій (наприклад, визначити суму набраних очок за якою-небудь шкалою). Проте набагато ефективніший інший шлях, заснований на ідеях факторного аналізу.

Факторний аналіз - одне із методів багатовимірної статистики (слово «багатомірний» показує, що вивчається одночасно багато різних показників, наприклад результати піддослідних у багатьох тестах). Це досить складний метод, тому тут доцільно обмежитися викладом лише його основної ідеї.

Факторний аналіз виходить з того, що результат будь-якого тесту є наслідком одночасної дії ряду безпосередньо не спостерігається (як інакше кажуть - латентних) факторів. Наприклад, результати в бігу на 100, 800 і 5000 м залежать від швидкісних якостей спортсмена, його сили, витривалості та ін. Значення цих факторів для кожної з дистанцій не однаково важливе. Якщо вибрати два тести, на які впливають приблизно однаково одні й ті ж фактори, то результати в цих тестах будуть сильно корелювати один з одним (скажімо, в бігу на дистанціях 800 і 1000 м). Якщо ж тести не мають загальних факторів або мало впливають на результати, кореляція між цими тестами буде низькою (наприклад, кореляція між результатами в бігу на 100 і 5000 м). Коли береться велика кількість різних тестів і розраховуються коефіцієнти кореляції з-поміж них, то з допомогою факторного аналізу можна визначити, скільки чинників спільно діє дані тести і який ступінь їхнього вкладу у кожен тест. А потім вже легко вибрати тести (або їх комбінації), які найточніше оцінюють рівень окремих факторів. У цьому полягає ідея факторної інформативності тестів. Наступний приклад конкретного експерименту показує, як і робиться.

Завдання полягало в тому, щоб знайти найбільш інформативні тести для оцінки загальної силової підготовленості студентів-спортсменів третього - першого розрядів, які займаються різними видами спорту. З цією метою було обстежено. (Н.В. Аверкович, В.М. Заціорський, 1966) з 15 тестів 108 осіб. В результаті факторного аналізу виділилися три фактори: 1) сила верхніх кінцівок, 2) сила нижніх кінцівок, 3) сила м'язів черевного преса та згиначів тазостегнових суглобів. Найбільш інформативними тестами серед випробуваних виявились: по першому фактору - віджимання в упорі, по другому - стрибок у довжину з місця, по третьому - піднімання прямих ніг у висі та максимальна кількість переходів у сід із положення лежачи на спині протягом 1 хв. . Якщо обмежуватися лише одним тестом, найбільш інформативним був переворот силою в упор на перекладині (оцінювалося число повторень).

3.4 Емпірична інформатазність у практичній роботі

При практичному використанні показників емпіричної інформативності слід мати на увазі, що вони справедливі лише до тих випробуваних та умов, для яких вони розраховані. Тест, інформативний у групі початківців, може бути зовсім неінформативним, якщо спробувати його застосовувати у групі майстрів спорту.

Інформативність тесту неоднакова у різних групах. Зокрема, у групах, однорідніших за своїм складом, тест зазвичай менш інформативний. Якщо визначено інформативність тесту на будь-якій групі, а потім найсильніші з неї включені до збірної команди, то інформативність того ж тесту у збірній команді буде значно нижчою. Причини цього зрозумілі з рис. 5: відбір зменшує загальну дисперсію результатів групи і знижує величини коефіцієнта кореляції. Наприклад, якщо визначити інформативність такого тесту, як МПК у плавців на 400 м, що мають різко різні результати (скажімо, від 3.55 до 6.30), то коефіцієнт інформативності буде дуже високий (У 4 й> 0,90); якщо провести ті ж виміри в групі плавців, що мають результати то 3.55 до 4.30, г № по абсолютній величині не перевищуватиме 0,4-0,6; якщо визначити той самий показник у найсильніших плавців світу (3.53>, 5=4.00), коефіцієнт інформативності взагалі може бути дорівнює нулю: за допомогою одного цього тесту не можна буде розрізнити плавців, що пливуть, скажімо, 3.55 і 3,59: і у тих, та в інших величини МПК. будуть високі та приблизно однакові.

Коефіцієнти інформативності дуже залежить від надійності тесту і критерію. Тест із низькою надійністю завжди мало інформативний, тому немає сенсу перевіряти малонадійні тести на інформативність. Недостатня надійність критерію також призводить до зниження коефіцієнтів інформативності. Проте в даному випадку було б неправильно нехтувати тестом як малоінформативним – адже верхньою межею можливої ​​кореляції тесту є не ±1, а його індекс надійності. Тому треба порівнювати коефіцієнт інформативності із цим індексом. Справжню інформативність (з поправкою на ненадійність критерію) розраховують за такою формулою:

Так, в одній із робіт ранг спортсмена у водному поло (ранг розглядали як критерій майстерності) було встановлено на основі оцінок 4 експертів. Надійність (узгодженість) критерію, визначена за допомогою внутрішньокласового коефіцієнта кореляції, дорівнювала 0,64. Коефіцієнт інформативності дорівнював 0,56. Справжній коефіцієнт інформативності (з поправкою на ненадійність критерію) дорівнює:

З інформативністю та надійністю тесту тісно пов'язане поняття про його розрізнювальну можливість, під якою розуміється та мінімальна відмінність між піддослідними, яка діагностується за допомогою тесту (це поняття за змістом аналогічно поняття про чутливість приладу). Різна можливість тесту залежить від:

Міжіндивідуальної варіації результатів. Наприклад, такий тест, як «максимальна кількість повторних кидків баскетбольного м'яча у стіну з відстані 4 м протягом 10 сек.», хороший для початківців, але непридатний для кваліфікованих баскетболістів, оскільки всі вони показують приблизно один і той же результат і стають нерозрізняними . У багатьох випадках варіація результатів між випробуваними (міжкласова варіація) може бути підвищена за рахунок збільшення складності тесту. Наприклад, якщо дати спортсменам різної кваліфікації легку для них функціональну пробу (скажімо, 20 присідань або роботу на велоергометрі потужністю 200 кгм/хв), то величина фізіологічних зрушень у всіх приблизно однакова і оцінити ступінь підготовленості буде неможливо. Якщо ж запропонувати їм важке завдання, відмінності між спортсменами стануть великими, і за результатами тесту можна буде судити про підготовленість спортсменів.

Надійності (тобто співвідношення між-і внутрішньоіндивідуальної варіації) тесту та критерію. Якщо результати одного й того ж випробуваного у стрибках у довжину з місця варіюють, скажімо, у пре-

У справах ±10 см, то, хоча довжину стрибка і можна визначити з точністю до ± 1 см, розрізнити з переконаністю піддослідних, «справжні» результати яких дорівнюють 315 і 316 см, не можна.

Немає фіксованої величини інформативності тесту, після якої можна вважати тест" придатним. Тут багато залежить від конкретної ситуації: бажаної точності прогнозу, необхідності отримати хоча б якісь додаткові відомості про спортсмена тощо. Практично для діагностики використовуються тести, інформативність яких не менше 0,3 Для прогнозу, як правило, потрібна більш висока інформативність - не менше 0,6.

Інформативність батареї тестів, природно, вища, ніж інформативність одного тесту. Нерідко буває так, що інформативність одного окремого тесту занадто низька, щоб цим тестом користуватися. Інформативність батареї тестів може бути цілком достатня.

Інформативність тесту який завжди можна встановити з допомогою експерименту та математичної обробки його результатів. Наприклад, якщо стоїть завдання розробити квитки для іспитів або теми дипломних робіт (адже це теж різновид тестування), треба відібрати такі питання, які найбільш інформативні, за якими можна точніше оцінити знання випускників та їх підготовленість до практичної роботи. Поки що в подібних випадках спираються лише на логічний, змістовний аналіз ситуації.

Іноді буває так, що інформативність тесту ясна без жодних експериментів, особливо коли тест є частиною тих дій, які виконує спортсмен на змаганнях. Чи потрібно експерименти, щоб довести інформативність таких показників, як час виконання поворотів у плаванні, швидкість на останніх кроках розбігу в стрибках у довжину, відсоток влучень зі штрафних кидків у баскетболі, якість виконання подачі в тенісі або волейболі.

Однак не всі подібні тести однаково інформативні. Наприклад, вкидання через бічні лінії у футболі, хоч і є елементом гри, навряд чи може розглядатися як один із найважливіших показників майстерності футболістів. Якщо таких тестів багато і треба відібрати найінформативніші з них, без математичних методів теорії тестів не обійтися.

Змістовий аналіз інформативності тесту та експериментально-математичне її обґрунтування мають доповнювати один одного. Жоден із цих підходів, взятий сам собою, перестав бути достатнім. Зокрема, якщо в результаті експерименту визначено високий коефіцієнт інформативності тесту, потрібно обов'язково перевірити, чи це не є наслідком так званої хибної кореляції. Відомо, що помилкові кореляції з'являються, коли на результати обох ознак, що корелюються, впливає деякий третій показник, який сам по собі не представляє

інтересу. .Наприклад, у старшокласників можна знайти істотну кореляцію між результатом у бігу на 100 м і знанням геометрії, оскільки вони в порівнянні з учнями молодших класів у середньому покажуть більш високі показники як у бігу, так і в знанні геометрії. Стороннім, третім, ознакою, що спричинив появу кореляції, став вік піддослідних. Звичайно, зробив би помилку той дослідник, який цього не помітив би і рекомендував іспит з геометрії як тест для бігунів на 100 м. Щоб не робити подібних помилок, треба обов'язково проаналізувати причинно-наслідкові зв'язки, що викликали появу кореляції між критерієм і тестом. Корисно, зокрема, уявити, що станеться, якщо результати в тесті покращаться. Чи призведе це до зростання результатів критерію? У наведеному прикладі це означає: якщо учень краще знатиме геометрію, чи стане він швидше бігти дистанцію 100 м? Очевидна негативна відповідь призводить до природного висновку: знання з геометрії не можуть бути тестом для спринтерів. Знайдена кореляція є хибною. Зрозуміло, ситуації реального життя значно складніше цього навмисне оглупленого прикладу.

Окремим випадком змістовної інформативності тестів є інформативність за визначенням. У разі просто домовляються у тому, який сенс треба вкладати те чи інше слово (термін). Наприклад, кажуть: "стрибок у висоту з місця характеризує стрибучість". Точніше було б сказати так: «Умовимося називати стрибучістю те, що вимірюється результатом стрибка вгору з місця». Така взаємна домовленість необхідна, оскільки вона попереджає непотрібні непорозуміння (адже хтось може розуміти під стрибучістю результати в десятирному стрибку на одній нозі, а стрибок у висоту з місця вважати, скажімо, тестом «вибухової» сили ніг).

56.0 Стандартизація тестів

Стандартизація тестів фізичної придатності з метою оцінки аеробної продуктивності людини досягається дотриманням наступних принципів.

Методика тестування має дозволяти проводити безпосередні вимірювання чи обчислювати непрямим шляхом максимальне споживання кисню організмом (аеробну продуктивність), оскільки цей фізіологічний показник фізичної придатності людини є найважливішим. Він позначатиметься символом гпах1ггшт У 0г і виражатиметься в мілілітрах на кілограм ваги випробуваного за хвилину (мл/кг-хв.).

В основному методика проведення тестів має бути однаковою як для лабораторних, так і для польових вимірювань, однак:

1. У лабораторних умовах (у стаціонарних та рухомих лабораторіях) аеробна продуктивність людини може бути безпосередньо визначена за допомогою досить складного обладнання та великої кількості вимірювань.

2. У польових умовах аеробна продуктивність оцінюється непрямим шляхом з урахуванням обмеженого числа фізіологічних вимірів.

Методика проведення тестів має дозволяти порівнювати їх результати.

Тестування повинне проводитися в один день і бажано без перерв. Це дозволить доцільно розподілити час, обладнання, сили при первинному та повторному тестуванні.

Методика тестування має бути досить гнучкою, щоб давати можливість обстежити групи людей, які мають різні фізичні здібності, різного віку, статі, з різним рівнем активності тощо.

57.0. Вибір апаратури

Усі названі принципи фізіологічного тестування можуть бути дотримані насамперед за умови правильного відбору наступних технічних засобів:

третбана,

велоергометра,

степергометра,

необхідного допоміжного обладнання, яке може використовуватись у будь-якому вигляді тесту.

57.1. Третбан може застосовуватися у найрізноманітніших дослідженнях. Однак цей прилад є найдорожчим. Навіть найменший варіант дуже громіздкий, щоб його можна було широко застосовувати в польових умовах. Третбан повинен дозволяти варіювати швидкості від 3 до (щонайменше) 8 км/год (2-5 миль/год) і нахил від 0 до 30%. Нахил третбана визначається як відсоткове відношення вертикального підйому до пройденої дистанції по горизонталі”.

Дистанція і вертикальний підйом повинні бути виражені в метрах, швидкість - в метрах за секунду (м/сек) або кілометрів за годину (км/год).

57.2. Велоергометр. Даний прилад легко застосовувати як в лабораторних, так і в польових умовах. Він досить універсальний, на ньому можна виконувати роботу різної інтенсивності - від мінімального до максимального рівня.

Велоергометр має механічну або електричну гальмівну систему. Електрична гальмівна система може отримувати електроживлення від зовнішнього джерела, так і від генератора, що знаходиться на ергометрі.

Регульований механічний опір виражається в кілограмометрах за хвилину (кгм/хв) і ватах. Кілограмометри за хвилину переводяться у вати за формулою:

1 ват = 6 кгм/хв. 2

Велоергометр повинен мати рухомо закріплене сидіння, щоб можна було регулювати висоту його положення для кожної окремої людини. При тестуванні сидіння встановлюється таким чином, щоб людина, яка сидить на ньому, могла майже повністю випрямленою ногою дістати до нижньої педалі. У середньому відстань між сидінням і педаллю в максимально опущеному положенні має становити 109% від довжини випробуваного.

Є різні конструкції велоергометра. Однак тип ергометра не впливає на результати експерименту, якщо вказаний опір у ватах або кілограмометрах за хвилину точно відповідає сумарному зовнішньому навантаженню.

Степергометр. Це відносно недорогий прилад з регульованою висотою сходів від 0 до 50 см. Подібно до велоергометра, він може легко використовуватися як в лабораторії, так і в польових умовах.

Порівняння трьох варіантів тестування. Кожен із цих приладів має свої переваги та недоліки (залежно від того, чи використовується він у лабораторіях чи в польових умовах). Зазвичай при роботі на третбані величина тах1ггшт У 07 трохи більша, ніж при роботі на велоергометрі; у свою чергу, показники велоергометра перевищують свідчення на степергометрі.

Рівень витрати енергії піддослідних, що у стані спокою чи виконують завдання з подолання сили тяжкості, прямо пропорційний їх вазі. Тому вправи на третбані і степергометрі створюють для всіх піддослідних однакове відносне робоче навантаження по підйому (свого тіла. - Прим. ред.) на задану висоту: при даній швидкості і нахилі третбана, частоті кроків і висот сходинок на степергометрі висота підйому однакова (а виконувана робота різна. - Прим. ред.). З іншого боку, велоергометр при фіксованій величині заданого навантаження вимагає майже однакових витрат енергії, незалежно від статі та віку випробуваного.

58.0, Загальні зауваження щодо методики тестування

Щоб застосовувати тести при обстеженні великих груп людей, необхідні прості методи тестування, що не займають багато часу. Однак для більш детального вивчення фізіологічних особливостей випробуваного потрібні глибші та трудомісткі тести. Для отримання більшої користі з тестів і більш гнучкого застосування необхідно знайти оптимальний компроміс між цими двома вимогами.

58.1. Інтенсивність роботи. Тестування необхідно починати з малих навантажень, з якими можуть впоратися найслабші випробувані. Оцінку адаптаційних можливостей серцево-сосу дистої і дихальної систем слід проводити в процесі роботи з навантаженнями, що поступово збільшуються. Функціональні межі повинні бути встановлені, таким чином, з достатньою точністю. Практичні міркування підказують прийняти вихідний рівень метаболізму (тобто рівень метаболізму у стані спокою) за одиницю вимірювання кількості енергії, необхідної для виконання того чи іншого навантаження. Початкове навантаження і наступні її ступені виражаються в Метах, кратних інтенсивності метаболізму у людини, яка перебуває у стані повного спокою. Фізіологічними показниками, що лежать в основі Метов, є кількість кисню (у мілілітрах за хвилину), що споживається людиною, яка перебуває у стані спокою, або ж її калоричний еквівалент (у кілокалоріях за хвилину).

Для контролю за навантаженнями в одиницях Мет або в еквівалентних їм величинах споживання кисню безпосередньо під час тестування необхідна складна електронно-обчислювальна апаратура, яка ще порівняно малодоступна. Тому щодо кількості кисню, необхідного організму до виконання навантажень певного виду і інтенсивності, практично зручно користуватися емпіричними формулами. Передбачені (на основі емпіричних формул. – прим. ред.) величини споживання кисню при роботі на третбані – за швидкістю та нахилом, при степ-тесті – за висотою та частотою кроків добре узгоджуються з результатами безпосередніх вимірювань і можуть бути використані як фізіологічний еквівалент фізичного зусилля, з яким співвідносяться всі фізіологічні показники, отримані під час тестування.

58.2. Тривалість тестів. Бажання скоротити процес тестування не повинно йти на шкоду цілям і завданням тесту, що проводиться. Занадто короткі тести не дадуть достатньо помітних результатів, їх розрізнювальні можливості будуть малі; занадто тривалі тести активують переважно терморегулятор-ные механізми, що заважає встановленню максимальної аеробної продуктивності. У рекомендованій методиці тестування кожен рівень навантаження витримується протягом 2 хв. Середній час проведення тесту – від 10 до 16 хв.

58.3. Показання припинення тесту. Тестування має бути припинено, якщо:

пульсовий тиск неухильно падає, незважаючи на збільшення навантаження;

систолічний кров'яний тиск перевищує 240-250 мм рт. ст.;

діастолічний кров'яний тиск піднімається вище за 125 мм рт. ст.;

з'являються такі симптоми нездужання, як зростаючий біль у грудях, сильна задишка, кульгавість, що перемежується;

з'являються клінічні ознаки аноксії: блідість чи синюшність обличчя, запаморочення, психотичні явища, відсутність реакції на подразнення;

показання електрокардіограми свідчать про парок-сизмальну супервентрикулярну або вентрикулярну аритмію, появу шлуночкових екстрасистолічних комплексів, що виникають до закінчення, зубця Т, порушення провідності, крім легкої Л У блокади, зниження /?--5Г горизонтального або низхідного типу більш ніж на 0,3 . .;»;, -

58.4. Запобіжні заходи.

Здоров'я випробуваного. Перш ніж піддаватися обстеженню, піддослідний має пройти медичну комісію та отримати довідку про те, що він здоровий. Дуже бажано зробити електрокардіограму (хоча одне грудне відведення). Для чоловіків віком понад 40 років зняття електрокардіограми є обов'язковим. Невід'ємною частиною всієї процедури тестування повинні бути вимірювання кров'яного тиску, що регулярно повторюються. Після закінчення тестування піддослідних необхідно проінформувати про заходи, що запобігають небезпечному скупчення крові в нижніх кінцівках.

Протипоказання. Випробовуваний не допускається до тестів у таких випадках:

відсутність дозволу лікаря брати участь у тестах із максимальними навантаженнями;

оральна температура перевищує 37,5 ° С;

частота серцевих скорочень після тривалого відпочинку понад 100 уд/хв;

явний занепад серцевої діяльності;

випадок інфаркту міокарда або міокардиту протягом останніх 3 місяців; симптоми та показання електрокардіограми, що свідчать про наявність цих захворювань; ознаки стенокардії;

інфекційні захворювання, включаючи застудні.

Менструація не є протипоказанням до участі у тестах. Однак у деяких випадках доцільно змінити розклад проведення.

Б. СТАНДАРТНІ ТЕСТИ

59.0. Опис основної методики проведення стандартних

У всіх трьох видах вправ і незалежно від того, з максимальним або субмаксимальним навантаженням проводиться тест, основна процедура тестування є однаковою.

Піддослідний приходить до лабораторії в легкому спортивному одязі та м'якому взутті. Протягом 2 год. перед початком тесту він повинен приймати їжу, пити кави, курити.

Відпочинок. Тесту передує період відпочинку, що триває 15 хв. У цей час, поки встановлюються фізіологічні вимірювальні прилади, випробуваний зручно сидить у кріслі.

Період акомодації. Перше тестування будь-якого випробуваного, як і всі повторні тести, дасть досить надійні результати, якщо основному тесту передуватиме короткий період вправ з малим навантаженням - період акомодації. Він триває 3 хв. і служить наступним цілям:

ознайомити випробуваного з апаратурою та типом роботи, яку він повинен виконувати;

попередньо вивчити фізіологічну реакцію випробуваного на навантаження приблизно 4 Мета, що відповідає частоті серцевих скорочень приблизно 100 уд/хв;

прискорити пристосування організму до безпосереднього проведення тесту.

Відпочинок. За періодом акомодації слідує короткий (2 хв.) період відпочинку; випробуваний зручно сидить у кріслі, поки експериментатор робить необхідні технічні приготування.

Тест. На початку тесту задається навантаження, що дорівнює навантаженню акомодаційного періоду, і випробуваний виконує вправи без перерви до завершення тесту. Через кожні 2 хв. роботи навантаження збільшується на 1 Мет.

Тестування припиняється за однієї з наступних умов:

випробуваний неспроможна продовжувати виконувати завдання;

є ознаки фізіологічної декомпенсації (див. 58.3);

дані, отримані на останньому ступені навантаження, дозволяють екстраполювати максимальну аеробну продуктивність на основі послідовних фізіологічних вимірювань (виконаних під час тестування. - Прим. ред.).

59.5. Вимірювання. Максимальне споживання кисню в мілілітрах на кілограм за хвилину вимірюється безпосередньо або обчислюється. Методи визначення споживання кисню дуже різноманітні, як і різноманітні додаткові технічні прийоми, використовувані для аналізу фізіологічних можливостей кожного індивіда. Докладніше про це буде сказано далі.

59.6. Відновлення. Після закінчення експерименту фізіологічне спостереження продовжується протягом мінімум 3 хв. Випробуваний знову відпочиває в кріслі, трохи піднявши ноги.

Примітка. Описана методика тестування дає зіставні фізіологічні дані, отримані при однаковій послідовності збільшення навантаження на третбані, велоергометр і степергометр. Далі методику тестування описано окремо для кожного з трьох приладів.

60.0. Третбан-тест

Апаратура. Третбан та необхідне допоміжне обладнання.

Опис Ретельно виконується основна методика тестування, описана в 59.0.

Швидкість руху третбана з випробуваним, що йде ним, дорівнює 80 м/хв (4,8 км/год, або 3 милі/год). За такої швидкості енергія, необхідна для пересування по горизонталі, дорівнює приблизно 3 Метам; кожне збільшення нахилу на 2,5% додає одну одиницю початкової швидкості метаболізму, т. е. 1 Мет до витрати енергії. Наприкінці перших 2 хв. нахил третбана швидко збільшується до 5%, наприкінці наступних 2 хв.-до 7,5%, потім до 10%, 12,5% і т. д. Повна схема дана в табл. 1.

Подібні документи

    Проведення контрольних випробувань за допомогою контрольних вправ або тестів для визначення готовності до фізичних вправ. Проблема стандартизації тестів. Зовнішня та внутрішня валідність тестів. Ведення протоколу контрольного обстеження.

    реферат, доданий 12.11.2009

    Характеристика рухових здібностей та методика розвитку гнучкості, витривалості, спритності, сили та швидкості. Тестування рухових здібностей школярів під час уроків фізичної культури. Застосування рухових тестів у практичній діяльності.

    дипломна робота , доданий 25.02.2011

    Оцінка динаміки зміни антропометричних даних у школярів, які систематично займаються легкою атлетикою, та школярів, які не займаються у спортивних секціях. Розробка тестів визначення загальної фізичної підготовленості; аналіз результатів.

    дипломна робота , доданий 07.07.2015

    Основні напрямки використання тестів, їхня класифікація. Тести для відбору у спортивній боротьбі. Методи оцінки спортивних здобутків. Тестування спеціальної витривалості борця. Взаємозв'язок показників тестів із технічною майстерністю борців-вільників.

    дипломна робота , доданий 03.03.2012

    Оцінка спеціальної витривалості плавця за допомогою контрольних вправ. Пристосованість основних реакцій фізіологічних систем за умов водного середовища. Розробка принципів оцінки медико-біологічних показників, які використовуються під час тестування плавця.

    стаття, доданий 03.08.2009

    Розгляд здорової енергетики як першооснови здоров'я. Ознайомлення з особливостями гімнастичних вправ у системі цигун. Вибір комплексу вправ для домашніх занять. Складання тестів для отримання висновків щодо виконаної роботи.

    дипломна робота , доданий 07.07.2015

    Спортивна метрологія - дослідження фізичної величини у фізкультурі та спорті. Основи вимірювань, теорія тестів, оцінок та норм. Методи отримання інформації щодо кількісної оцінки якості показників; кваліметрія. Елементи математичної статистики.

    презентація , доданий 12.02.2012

    Сутність та значення контролю у фізичному вихованні та його види. Перевірка та оцінка рухових умінь та навичок, отриманих на уроках фізичної культури. Тестування рівня фізичної підготовленості. Контроль функціонального стану учнів.

    курсова робота , доданий 06.06.2014

    Розрахунок величини абсолютної та відносної похибок виміру. Переведення результатів тестування в бали, використовуючи регресуючу та пропорційну шкалу. Ранжування результатів тестів. Зміни місць у групі порівняно з попередніми оцінками.

    контрольна робота , доданий 11.02.2013

    Режим рухової активності. Роль факторів, що зумовлюють фізичну працездатність футболістів на різних етапах багаторічної підготовки. Типи ергогенних засобів. Методика проведення тестів визначення рівня фізичної працездатності.


Основні питання: Тест як інструмент виміру. Основні теорії тестування. Функції, можливості та обмеження тестування. Застосування тестів щодо оцінки персоналу. Переваги та недоліки використання тестів. Форми та види тестових завдань. Технологія побудови завдання. Оцінка якості тесту. Достовірність та валідність. Програмне забезпечення розробки тестів. 2




Тест як інструмент виміру Основні поняття у тестології: вимір, тест, зміст та форма завдань, надійність та валідність результатів виміру. Крім того, у тестології використовуються такі поняття статистичної науки, як вибіркова та генеральна сукупність, середні показники, варіація, кореляція, регресія та ін.




Тестове завдання - це дидактично та технологічно ефективна одиниця контрольного матеріалу, частина тесту, яка відповідає вимогам предметної чистоти змісту (або одномірності), змістовної та логічної правильності, правильності форми, прийнятності геометричного образу завдання. 6




Традиційний тест є стандартизованим методом діагностики рівня та структури підготовленості. У такому тесті всі випробувані відповідають на одні й самі завдання, в однаковий час, в однакових умовах і з однаковими правилами оцінювання відповідей. Для досягнення мети тестування можна створити незліченну кількість тестів, і всі вони можуть відповідати досягненню поставленого завдання. 8


Професіограма (від лат. Professio спеціальність + Gramma запис) система ознак, що описують ту чи іншу професію, а також включає перелік норм і вимог, що пред'являються цією професією або спеціальністю до працівника. Зокрема, професіограма може включати перелік психологічних характеристик, яким повинні відповідати представники конкретних професійних груп. 9


Основні теорії тестування Перші наукові праці з теорії тестів з'явилися на початку ХХ століття, на стику психології, соціології, педагогіки та інших, про поведінкових наук. Зарубіжні психологи називають цю науку психометрикою (Psychometrika), а педагоги – педагогічним виміром (Educational measurement). Незамутнена ідеологією та політикою, інтерпретація назви «тестологія» проста та прозора: наука про тести. 10


Перший етап - передісторія - з давніх-давен до кінця XIX століття, коли були поширені донаукові форми контролю знань і здібностей; другий період, класичний, продовжувався з початку 20-х до кінця 60-х років, протягом якого створювалася класична теорія тестів; третій період - технологічний - що розпочався з 70-х років - час розробки методів адаптивного тестування та навчання, методологію ефективної розробки тестів та тестових завдань для параметричної оцінки піддослідних за вимірюваною латентною якістю. 11


Функції, можливості та обмеження тестування Тести, що застосовуються при відборі, призначені для того, щоб отримати психологічний портрет кандидата, оцінити його здібності, а також професійні знання та навички. Тести дозволяють порівнювати кандидатів між собою чи з еталонами, тобто ідеальним кандидатом. Тести використовуються для вимірювання якостей людини, необхідні результативного виконання роботи. Деякі тести влаштовані таким чином, щоб роботодавець сам адміністрував тестування та підраховував результати. Інші вимагають послуг досвідчених консультантів, щоб забезпечити їхнє правильне застосування. 12


Обмеження використання тестів пов'язані з їх дорогим адмініструванням; - З придатністю для оцінки здібностей людини; - Тести більш успішні для прогнозування успішності в роботі, яка містить короткі за часом професійні завдання, і не дуже зручні у випадках, коли завдання, які вирішуються на роботі, займають кілька днів або тижнів. 13








2. Використовувана термінологія має бути підібрана для конкретну цільову аудиторію. Також потрібно виключити зайві статті або статті, що включають два або більше запитань, оскільки вони іноді спантеличують респондента і ускладнюють інтерпретацію. 17


3. Щоб задовольнити всім цим вимогам, слід переглянути весь банк питань статтю за статтею та проаналізувати, якою метою є кожна з них. Наприклад, якщо тест розробляється для вимірювання аналітичних здібностей стажистів – бухгалтерів, варто подумати, що в цьому випадку означає поняття «аналітичні здібності». 18




5. Коли питання та формати підрахунку результатів обрані, їх потрібно перетворити на зручний для користувача формат, з чітко написаними інструкціями та питаннями - прикладами; так, щоб кандидати, які виконують тест, повністю розуміли, що від них вимагається. 20


6. Дуже часто на цьому етапі розробки тест включають більше питань, ніж потрібно. За деякими оцінками, втричі більше, ніж залишиться в остаточному тесті чи системі виміру. Тоді вихідним заходом стане перевірка тесту, що розробляється на відносно широкій вибірці з числа існуючих працівників, щоб переконатися в тому, що всі питання легко зрозумілі. 21


7. Тести визначення знань зазвичай починаються з простих питань, поступово ускладнюються до кінця. Коли тести призначаються для вимірювання соціальних установок та особистісних характеристик, можливо, буде корисним чергувати негативно та позитивно сформульовані статті, щоб уникнути непродуманих відповідей. 22


8. Останній етап є застосування тесту на широкій репрезентативної вибірці, щоб встановити норми виконання, достовірності та валідності ще до початку його використання як інструмент відбору. Крім того, необхідно визначити справедливість тесту, щоб переконатися, що він не дискримінує жодних підгруп населення (наприклад, етнічних відмінностей). 23


Оцінка якості тесту Щоб методи відбору були достатньо результативними, вони повинні бути надійними, валідними та достовірними. Достовірність методу відбору характеризується його несхильністю до систематичних помилок при вимірі, тобто його спроможності за різних умов. 24


Насправді достовірність при винесенні суджень досягається порівнянням результатів двох і більше аналогічних тестів, проведених у різні дні. Інший шлях підвищення достовірності – порівняння результатів кількох альтернативних методів відбору (наприклад, тест та розмова). Якщо результати подібні чи однакові, вважатимуться їх правильними. 25


Надійність означає, що проведені виміри дадуть той самий результат, що й попередні, тобто результати оцінки не впливають сторонні чинники. Валідність означає, що цей метод вимірює саме те, навіщо він призначений. Максимально можлива точність інформації, одержуваної спеціально розробленими методиками у наукових дослідженнях, обмежена технічними факторами та не перевищує 0,8. 26


У практиці відбору персоналу зазначається, що надійність різних методів оцінки перебуває у інтервалах: 0,1 – 0,2 – традиційне інтерв'ю; 0,2 – 0,3 – рекомендації; 0,3 – 0,5 – професійні випробування; 0,5 – 0,6 – структуроване інтерв'ю, інтерв'ю з компетенцій; 0,5 – 0,7 – когнітивні та особистісні тести; 0,6 – 0,7 – компетентнісний підхід (асесмент – центр). 27


Під обґрунтованістю розуміється те, з яким ступенем точності даний результат, метод чи критерій «передбачає» майбутню результативність людини, що тестується. Обгрунтованість методів відноситься до висновків, зроблених на основі тієї чи іншої процедури, а не самої процедури. Тобто метод відбору може сам бути достовірним, але не відповідати конкретному завданню: вимірювати не те, що потрібно в даному випадку. 28


Програмне забезпечення для розробки тестів У вітчизняній практиці представлені різні комплексні програми з модулем «Психодіагностика», наприклад, програма «1 С: Зарплата та Управління Персоналом 8.0» з модулем «Психодіагностика», розроблена спільно з групою викладачів кафедри психології особистості та загальної психології факультету психології МДУ ім. М. Ст Ломоносова під керівництвом д. псих. наук, проф. А. Н. Гусєва. Навчальний тренажер для розробки систем оцінки персоналу та адаптації тестових методик факультету психології ТГУ, розроблений також на базі «1С:Підприємство 8.2» фірмою Персонал Софт. 29


Література: Відбір та найм персоналу: технології тестування та оцінки / Домінік Купер, Іван Т. Робертсон, Гордон Тінлайн. - М., вид-во «Вершина, - 156 с. Психологічне забезпечення професійної діяльності: теорія та практика / За ред. Проф. Г. С. Нікіфорова. - СПб.: Мова, - 816 с. 30