Peruntukan utama teori klasik ujian. Konsep asas teori ujian

Apa itu ujian

Selaras dengan IEEE Std 829-1983 Menguji- ini ialah proses analisis perisian yang bertujuan untuk mengenal pasti perbezaan antara sifat sedia ada dan yang diperlukan (kecacatan) serta menilai sifat perisian.

Mengikut GOST R ISO IEC 12207-99 kitaran hidup Perisian ini mentakrifkan, antara lain, proses sokongan untuk pengesahan, pengesahan, semakan kolaboratif dan audit. Proses pengesahan ialah proses menentukan bahawa produk perisian beroperasi dengan mematuhi sepenuhnya keperluan atau syarat yang dilaksanakan dalam kerja terdahulu. Proses ini mungkin termasuk analisis, pengesahan dan ujian (ujian). Proses pengesahan ialah proses menentukan kesempurnaan pematuhan dengan keperluan yang ditetapkan, sistem yang dicipta atau produk perisian tujuan fungsional mereka. Proses analisis bersama adalah proses menilai status dan, jika perlu, hasil kerja (produk) projek. Proses audit ialah proses menentukan pematuhan terhadap keperluan, rancangan dan terma kontrak. Bersama-sama, proses ini membentuk apa yang biasanya dirujuk sebagai ujian.

Pengujian adalah berdasarkan prosedur ujian dengan input khusus, keadaan awal dan hasil yang dijangkakan direka untuk tujuan tertentu, seperti menguji satu program atau mengesahkan pematuhan keperluan tertentu. Prosedur ujian boleh menguji pelbagai aspek fungsi program - daripada operasi yang betul bagi satu fungsi kepada pemenuhan keperluan perniagaan yang mencukupi.

Apabila menjalankan projek, adalah perlu untuk mengambil kira mengikut piawaian dan keperluan produk yang akan diuji. Apakah alatan yang akan (jika ada) digunakan untuk mencari dan mendokumentasikan kecacatan yang ditemui. Jika anda masih ingat tentang ujian dari awal projek, menguji produk yang sedang dibangunkan tidak akan membawa kejutan yang tidak menyenangkan. Ini bermakna kualiti produk mungkin agak tinggi.

Kitaran hayat produk dan ujian

Semakin banyak, pada zaman kita, proses pembangunan perisian berulang digunakan, khususnya, teknologi RUP - Proses Bersepadu Rasional(Rajah 1). Apabila menggunakan pendekatan ini, ujian tidak lagi menjadi proses "keluar dari jalan" yang bermula selepas pengaturcara telah menulis semua kod yang diperlukan. Kerja pada ujian bermula dari peringkat awal mengenal pasti keperluan untuk produk masa depan dan disepadukan rapat dengan tugas semasa. Dan ini meletakkan permintaan baharu pada penguji. Peranan mereka bukan semata-mata untuk mengenal pasti kesilapan sepenuhnya dan seawal mungkin. Mereka harus terlibat dalam keseluruhan proses mengenal pasti dan menangani risiko projek yang paling ketara. Untuk melakukan ini, untuk setiap lelaran, matlamat ujian dan kaedah untuk mencapainya ditentukan. Dan pada akhir setiap lelaran, ia ditentukan sejauh mana matlamat ini telah dicapai, sama ada ujian tambahan, dan sama ada perlu menukar prinsip dan alatan untuk menjalankan ujian. Seterusnya, setiap kecacatan yang ditemui mesti melalui kitaran hayatnya sendiri.

nasi. 1. Kitaran hayat produk mengikut RUP

Ujian biasanya dijalankan dalam kitaran, setiap satu mempunyai senarai tugas dan matlamat tertentu. Kitaran ujian boleh bertepatan dengan lelaran atau sepadan dengan bahagian tertentu daripadanya. Sebagai peraturan, kitaran ujian dijalankan untuk pemasangan sistem tertentu.

Kitaran hayat produk perisian terdiri daripada satu siri lelaran yang agak singkat (Rajah 2). Lelaran ialah kitaran pembangunan lengkap yang membawa kepada keluaran produk akhir, atau beberapa versi singkatannya, yang berkembang dari lelaran ke lelaran untuk akhirnya menjadi sistem yang lengkap.

Setiap lelaran termasuk, sebagai peraturan, tugas-tugas perancangan kerja, analisis, reka bentuk, pelaksanaan, ujian dan penilaian keputusan yang dicapai. Walau bagaimanapun, nisbah tugas ini boleh berbeza dengan ketara. Selaras dengan nisbah tugas yang berbeza dalam lelaran, mereka dikumpulkan ke dalam fasa. Pada fasa pertama - Permulaan - perhatian utama diberikan kepada tugas-tugas analisis. Lelaran fasa kedua - Pembangunan - menumpukan pada reka bentuk dan ujian keputusan reka bentuk utama. Dalam fasa ketiga - Membina - bahagian pembangunan dan tugasan ujian adalah yang terbesar. Dan dalam fasa terakhir - Pemindahan - tugas menguji dan memindahkan sistem kepada Pelanggan diselesaikan sepenuhnya.

nasi. 2. Lelaran kitaran hayat produk perisian

Setiap fasa mempunyai matlamat khusus tersendiri dalam kitaran hayat produk dan dianggap lengkap apabila matlamat tersebut tercapai. Semua lelaran, kecuali mungkin lelaran fasa Mula, berakhir dengan penciptaan versi berfungsi sistem sedang dibangunkan.

Kategori ujian

Ujian berbeza dengan ketara dalam tugasan yang mereka selesaikan dan teknik yang digunakan.

Kategori ujian	Penerangan Kategori	Jenis-jenis ujian
Ujian semasa	Satu set ujian yang dijalankan untuk menentukan kesihatan ciri sistem baharu yang telah ditambah.	Ujian Tekanan; ujian kitaran perniagaan; ujian tekanan.
Ujian Regresi	Tujuan ujian regresi adalah untuk mengesahkan bahawa penambahan pada sistem tidak mengurangkan keupayaannya, i.e. ujian dijalankan mengikut keperluan yang telah dipenuhi sebelum menambah ciri baharu.	Ujian Tekanan; ujian kitaran perniagaan; ujian tekanan.

Subkategori ujian

Subkategori ujian	Penerangan tentang jenis ujian	Subspesies ujian
Ujian Tekanan	Ia digunakan untuk menguji semua fungsi aplikasi tanpa pengecualian. AT kes ini susunan di mana fungsi diuji tidak penting.	ujian berfungsi; ujian antara muka; ujian pangkalan data
Ujian kitaran perniagaan	Digunakan untuk menguji fungsi aplikasi mengikut susunan ia dipanggil oleh pengguna. Contohnya, meniru semua tindakan akauntan selama 1 suku tahun.	ujian unit (ujian unit); ujian berfungsi; ujian antara muka; ujian pangkalan data.
ujian tekanan	Digunakan untuk ujian Prestasi aplikasi. Tujuan ujian ini adalah untuk menentukan rangka kerja bagi pengendalian aplikasi yang stabil. Dengan ujian ini, semua fungsi yang ada dipanggil.	ujian unit (ujian unit); ujian berfungsi; ujian antara muka; ujian pangkalan data.

Subkategori ujian

Penerangan tentang jenis ujian

Subspesies ujian

Ujian Tekanan

Ia digunakan untuk menguji semua fungsi aplikasi tanpa pengecualian. AT kes ini susunan di mana fungsi diuji tidak penting.

ujian berfungsi;
ujian antara muka;
ujian pangkalan data

Ujian kitaran perniagaan

Digunakan untuk menguji fungsi aplikasi mengikut susunan ia dipanggil oleh pengguna. Contohnya, meniru semua tindakan akauntan selama 1 suku tahun.

ujian unit (ujian unit);
ujian berfungsi;
ujian antara muka;
ujian pangkalan data.

ujian tekanan

Digunakan untuk ujian

Prestasi aplikasi. Tujuan ujian ini adalah untuk menentukan rangka kerja bagi pengendalian aplikasi yang stabil. Dengan ujian ini, semua fungsi yang ada dipanggil.

ujian unit (ujian unit);
ujian berfungsi;
ujian antara muka;
ujian pangkalan data.

Jenis-jenis ujian

Ujian unit (ujian unit) - jenis ini melibatkan ujian modul aplikasi individu. Untuk mendapatkan hasil yang maksimum, ujian dijalankan serentak dengan pembangunan modul.

Ujian fungsional — tujuan ujian ini adalah untuk mengesahkan bahawa item ujian berfungsi dengan baik. Ketepatan navigasi melalui objek diuji, serta input, pemprosesan dan output data.

Ujian pangkalan data - Menyemak kebolehkendalian pangkalan data semasa operasi biasa aplikasi, semasa beban lampau dan dalam mod berbilang pengguna.

Ujian unit

Untuk OOP, organisasi biasa untuk ujian unit adalah untuk menguji kaedah setiap kelas, kemudian kelas setiap pakej, dan seterusnya. Secara beransur-ansur, kami meneruskan untuk menguji keseluruhan projek, dan ujian sebelumnya kelihatan seperti ujian regresi.

Dokumentasi output ujian ini termasuk prosedur ujian, data input, kod yang melaksanakan ujian dan data output. Berikut ialah paparan dokumentasi output.

Ujian fungsional

Ujian fungsional objek ujian dirancang dan dijalankan berdasarkan keperluan ujian yang ditetapkan dalam peringkat definisi keperluan. Keperluan adalah peraturan perniagaan, rajah kes penggunaan, fungsi perniagaan dan, jika ada, rajah aktiviti. Tujuan ujian fungsian adalah untuk mengesahkan bahawa komponen grafik yang dibangunkan memenuhi keperluan yang ditentukan.

Ujian jenis ini tidak boleh diautomatikkan sepenuhnya. Oleh itu, ia dibahagikan kepada:

Ujian automatik (untuk digunakan sekiranya anda boleh menyemak maklumat output).

Tujuan: untuk menguji input, pemprosesan dan output data;

Ujian manual (dalam kes lain).

Tujuan: menguji ketepatan memenuhi keperluan pengguna.

Adalah perlu untuk melaksanakan (memainkan) setiap kes penggunaan, menggunakan kedua-dua nilai yang betul dan yang jelas salah, untuk mengesahkan berfungsi dengan betul, mengikut kriteria berikut:

produk bertindak balas secukupnya kepada semua data input (hasil yang dijangkakan dipaparkan sebagai tindak balas kepada data input dengan betul);
produk bertindak balas secukupnya kepada data yang dimasukkan dengan salah (mesej ralat yang sepadan muncul).

Ujian pangkalan data

Tujuan ujian ini adalah untuk mengesahkan kebolehpercayaan kaedah capaian pangkalan data, pelaksanaannya yang betul, tanpa melanggar integriti data.

Ia adalah perlu untuk konsisten menggunakan bilangan maksimum akses pangkalan data yang mungkin. Pendekatan digunakan di mana ujian disusun sedemikian rupa untuk "memuatkan" pangkalan data dengan urutan kedua-dua nilai yang betul dan yang jelas salah. Reaksi pangkalan data terhadap input data ditentukan, selang masa untuk pemprosesannya dianggarkan.

Asas teori ujian 1. Konsep asas teori ujian 2. Kebolehpercayaan ujian dan cara untuk menentukannya

Soalan kawalan 1. Apakah yang dipanggil ujian? 2. Apakah keperluan untuk ujian? 3. Apakah ujian yang dipanggil tulen? 4. Apakah yang dipanggil kebolehpercayaan ujian? 5. Senaraikan sebab-sebab yang menyebabkan variasi dalam keputusan semasa ujian semula. 6. Apakah perbezaan antara variasi intrakelas dan variasi antara kelas? 7. Bagaimana untuk menentukan secara praktikal kebolehpercayaan ujian? 8. Apakah perbezaan antara ketekalan dan kestabilan ujian? 9. Apakah kesetaraan ujian? 10. Apakah suite ujian homogen? 11. Apakah suite ujian heterogen? 12. Cara untuk meningkatkan kebolehpercayaan ujian.

Ujian ialah satu ukuran atau ujian yang dijalankan untuk menentukan keadaan atau kebolehan seseorang. Tidak semua ukuran boleh digunakan sebagai ujian, tetapi hanya yang memenuhi keperluan khas. Ini termasuk: 1. penyeragaman (prosedur dan syarat ujian mestilah sama dalam semua kes menggunakan ujian); 2. kebolehpercayaan; 3. bermaklumat; 4. ketersediaan sistem penarafan.

Keperluan ujian: n Bermaklumat - tahap ketepatan yang digunakan untuk mengukur harta (kualiti, keupayaan, ciri) yang digunakan. n Kebolehpercayaan - tahap persetujuan antara keputusan apabila orang yang sama diuji berulang kali dalam keadaan yang sama. Ketekalan - (orang yang berbeza, tetapi peranti yang sama dan keadaan yang sama). n n Keadaan standard - (keadaan yang sama untuk pengukuran berulang). n Kehadiran sistem penggredan - (pindah ke sistem penggredan. Seperti di sekolah 5 -4 -3. . .).

Ujian yang memenuhi keperluan kebolehpercayaan dan bermaklumat dipanggil baik atau tulen (Authentico Yunani - dengan cara yang boleh dipercayai)

Proses ujian dipanggil ujian; nilai berangka yang diperoleh hasil daripada pengukuran ialah keputusan ujian (atau keputusan ujian). Sebagai contoh, berlari 100 m adalah ujian, prosedur untuk menjalankan perlumbaan dan masa adalah ujian, masa larian adalah hasil ujian.

Ujian berdasarkan tugas motor dipanggil ujian motor atau motor. Keputusan mereka boleh sama ada pencapaian motor (masa berlalu jarak, bilangan ulangan, jarak perjalanan, dll.), atau penunjuk fisiologi dan biokimia.

Kadangkala bukan satu, tetapi beberapa ujian digunakan yang mempunyai matlamat akhir tunggal (contohnya, penilaian keadaan atlet dalam tempoh latihan yang kompetitif). Kumpulan ujian sedemikian dipanggil ujian kompleks atau bateri.

Ujian yang sama, digunakan untuk subjek yang sama, harus memberikan keputusan yang sama di bawah keadaan yang sama (melainkan subjek itu sendiri telah berubah). Walau bagaimanapun, dengan penyeragaman yang ketat dan peralatan yang tepat, keputusan ujian sentiasa berbeza-beza. Sebagai contoh, penyelidik, yang baru sahaja menunjukkan hasil 215 k. G dalam ujian dinamometri tulang belakang, apabila diulang, hanya menunjukkan 190 k. G.

Kebolehpercayaan ujian dan cara untuk menentukannya Kebolehpercayaan ujian ialah tahap persetujuan antara keputusan apabila menguji semula orang yang sama (atau objek lain) di bawah keadaan yang sama.

Variasi keputusan semasa ujian berulang dipanggil intra-individu, atau intra-kumpulan, atau intra-kelas. Empat sebab utama menyebabkan variasi ini: 1. Perubahan dalam keadaan subjek (keletihan, bersenam, "belajar", perubahan dalam motivasi, tumpuan, dll.). 2. Perubahan yang tidak terkawal dalam keadaan dan peralatan luaran (suhu, angin, kelembapan, voltan dalam sesalur kuasa, kehadiran orang yang tidak dibenarkan, dll.), iaitu segala-galanya yang digabungkan dengan istilah “ ralat rawak ukuran".

Empat sebab utama menyebabkan variasi ini: 3. Perubahan dalam keadaan orang yang mentadbir atau menilai ujian (dan, sudah tentu, penggantian seorang penguji atau hakim oleh yang lain). 4. Ketidaksempurnaan ujian (terdapat ujian yang jelas tidak boleh dipercayai. Contohnya, jika subjek melakukan lontaran percuma ke dalam bakul bola keranjang, maka pemain bola keranjang yang mempunyai peratusan pukulan yang tinggi secara tidak sengaja boleh melakukan kesilapan pada lontaran pertama) .

Konsep keputusan ujian sebenar adalah abstraksi (ia tidak boleh diukur dalam pengalaman). Oleh itu, kaedah tidak langsung perlu digunakan. Analisis varians dengan pengiraan seterusnya bagi pekali korelasi intrakelas adalah yang paling disukai untuk menilai kebolehpercayaan. Analisis varians membolehkan anda menguraikan variasi keputusan ujian yang direkodkan dalam eksperimen kepada komponen kerana pengaruh faktor individu.

Jika anda mendaftarkan keputusan yang dikaji dalam mana-mana ujian, ulangi ujian ini dalam hari yang berbeza, dan setiap hari untuk membuat beberapa percubaan, menukar penguji secara berkala, maka akan ada variasi: a) daripada subjek ke subjek; n b) dari hari ke hari; n c) daripada penguji kepada penguji; n d) dari percubaan ke percubaan. Analisis varians memungkinkan untuk mengasingkan dan menilai variasi ini. n

Oleh itu, untuk menilai secara praktikal kebolehpercayaan ujian, adalah perlu, n pertama, untuk melakukan analisis varians, n kedua, untuk mengira pekali korelasi intrakelas (pekali kebolehpercayaan).

Bercakap tentang kebolehpercayaan ujian, adalah perlu untuk membezakan antara kestabilan (kebolehulangan), ketekalan, dan kesetaraan. n n Di bawah kestabilan ujian, fahami kebolehulangan keputusan apabila ia diulang selepas masa tertentu dalam keadaan yang sama. Ujian semula biasanya dirujuk sebagai ujian semula. Ketekalan ujian dicirikan oleh kebebasan keputusan ujian daripada kualiti peribadi orang yang menjalankan atau menilai ujian.

Jika semua ujian yang disertakan dalam mana-mana suite ujian adalah sangat setara, ia dipanggil homogen. Keseluruhan kompleks ini mengukur satu sifat kemahiran motor manusia (contohnya, kompleks yang terdiri daripada lompatan dari tempat yang panjang, ke atas dan tiga kali ganda; tahap pembangunan kualiti kekuatan kelajuan dinilai). Sekiranya tidak ada ujian yang setara dalam kompleks, iaitu ujian yang disertakan di dalamnya mengukur sifat yang berbeza, maka ia dipanggil heterogen (contohnya, kompleks yang terdiri daripada dinamometri berdiri, melompat ke atas Abalakov, larian 100 meter).

Kebolehpercayaan ujian boleh dipertingkatkan sedikit sebanyak dengan: n n n a) penyeragaman ujian yang lebih ketat; b) meningkatkan bilangan percubaan; c) menambah bilangan penilai (hakim, eksperimen) dan meningkatkan ketekalan pendapat mereka; d) menambah bilangan ujian setara; e) motivasi mata pelajaran yang lebih baik.

Komponen pertama, teori ujian, mengandungi penerangan model statistik pemprosesan data diagnostik. Ia mengandungi model untuk menganalisis jawapan dalam item ujian dan model untuk mengira jumlah keputusan ujian. Mellenberg (1980, 1990) memanggilnya "psikologi". Teori ujian klasik, teori ujian moden (atau model analisis tindak balas ujian - IRT) dan model

sampel tugasan terdiri daripada tiga yang paling banyak jenis penting model teori ujian. Subjek pertimbangan psikodiagnostik adalah dua model pertama.

Teori ujian klasik. Berdasarkan teori ini, kebanyakan ujian intelek dan personaliti telah dibangunkan. Konsep utama teori ini ialah konsep "kebolehpercayaan". Kebolehpercayaan merujuk kepada ketekalan keputusan apabila dinilai semula. Dalam manual rujukan, konsep ini biasanya dibentangkan dengan sangat ringkas, dan kemudian diberikan Penerangan terperinci radas statistik matematik. Dalam bab pengenalan ini, kami akan membentangkan penerangan ringkas maksud utama konsep yang dinyatakan. AT teori klasik ujian, kebolehpercayaan difahami sebagai kebolehulangan keputusan beberapa prosedur pengukuran (terutamanya pengukuran menggunakan ujian). Konsep kebolehpercayaan melibatkan pengiraan ralat pengukuran. Keputusan yang diperoleh semasa proses ujian boleh dibentangkan sebagai jumlah hasil sebenar dan ralat pengukuran:

Xi = Ti+ Еj

di mana Xi ialah penilaian keputusan yang diperolehi, Ti ialah keputusan sebenar, dan Еj- ralat pengukuran.

Penilaian keputusan yang diperoleh adalah, sebagai peraturan, bilangan jawapan yang betul untuk tugas ujian. Hasil sebenar boleh dilihat sebagai penilaian yang benar dalam pengertian Platonik (Gulliksen, 1950). Konsep hasil yang diharapkan adalah meluas, i.e. idea tentang skor yang boleh diperolehi hasil daripada pengulangan prosedur pengukuran yang banyak (Tuhan & Novic, 1968). Tetapi menjalankan prosedur penilaian yang sama dengan satu orang tidak mungkin. Oleh itu, adalah perlu untuk mencari penyelesaian lain untuk masalah tersebut (Witlman, 1988).

Dalam konsep ini, beberapa andaian dibuat tentang keputusan sebenar dan ralat pengukuran. Yang terakhir diambil sebagai faktor bebas, yang, tentu saja, andaian yang sangat munasabah, kerana turun naik rawak dalam keputusan tidak memberikan kovarians: r EE =0.

Diandaikan bahawa tiada korelasi antara skor benar dan ralat pengukuran: rEE=0.

Jumlah ralat ialah 0, kerana purata diambil sebagai anggaran sebenar nilai aritmetik:

Andaian ini membawa kita akhirnya kepada definisi kebolehpercayaan yang terkenal sebagai nisbah hasil sebenar kepada jumlah varians atau ungkapan: 1 tolak nisbah, dalam pengangkanya adalah ralat pengukuran, dan dalam penyebut ialah jumlah varians:

, ATAU

Daripada formula ini untuk menentukan kebolehpercayaan, kita memperoleh bahawa varians ralat S 2 (E) adalah sama dengan jumlah varians dalam bilangan kes (1 – r XX "); oleh itu, kesalahan biasa pengukuran ditentukan oleh formula:

Selepas pengesahan teori kebolehpercayaan dan derivatifnya, adalah perlu untuk menentukan indeks kebolehpercayaan ujian tertentu. Terdapat prosedur praktikal untuk menilai kebolehpercayaan ujian, seperti menggunakan bentuk yang boleh ditukar ganti (ujian selari), membahagikan item kepada dua bahagian, menguji semula, dan mengukur ketekalan dalaman. Setiap direktori mengandungi indeks ketekalan keputusan ujian:

r XX ’ \u003d r (x 1, x 2)

di mana rXX' ialah pekali kestabilan, dan x 1 dan x2 - keputusan dua ukuran.

Konsep kebolehpercayaan bentuk boleh tukar telah diperkenalkan dan dibangunkan oleh Gulliksen (1950). Prosedur ini agak susah payah, kerana ia dikaitkan dengan keperluan untuk mencipta satu siri tugasan yang selari.

r XX ’ \u003d r (x 1, x 2)

di mana rXX' ialah nisbah kesetaraan, dan x 1 dan x2 - dua ujian selari.

Prosedur seterusnya - membahagikan ujian utama kepada dua bahagian A dan B - lebih mudah digunakan. Markah yang diperoleh daripada kedua-dua bahagian ujian adalah berkorelasi. Menggunakan formula Spearman-Brown, kebolehpercayaan ujian secara keseluruhan dinilai:

di mana A dan B ialah dua bahagian selari ujian.

Kaedah seterusnya adalah untuk menentukan ketekalan dalaman pelaksanaan tugasan ujian. Kaedah ini adalah berdasarkan penentuan kovarian item individu. Sg ialah varians bagi item yang dipilih secara rawak, dan Sgh ialah kovarians dua item yang dipilih secara rawak. Pekali yang paling biasa digunakan untuk menentukan ketekalan dalaman ialah "alfa" Cronbach. Formula juga digunakan КР20 dan λ-2(lambda-2).

Dalam konsep kebolehpercayaan klasik, ralat pengukuran ditakrifkan yang berlaku dalam proses pengujian dan dalam proses pemerhatian. Sumber ralat ini berbeza: ia boleh menjadi ciri peribadi, dan ciri keadaan ujian, dan tugas ujian itu sendiri. Terdapat kaedah khusus untuk ralat pengiraan. Kami tahu bahawa pemerhatian kami mungkin menjadi salah, alat metodologi kami tidak sempurna dengan cara yang sama seperti orang sendiri tidak sempurna. (Bagaimana untuk tidak mengingati Shakespeare: "Anda tidak boleh dipercayai, yang namanya lelaki"). Hakikat bahawa ralat pengukuran dijelaskan dan dijelaskan dalam teori ujian klasik adalah titik positif yang penting.

Teori ujian klasik mempunyai nombor ciri penting yang boleh dianggap sebagai kekurangannya. Beberapa ciri ini dicatatkan dalam buku rujukan, tetapi kepentingannya (dari sudut pandangan sehari-hari) jarang ditekankan, dan tidak juga diperhatikan bahawa dari sudut teori atau metodologi ia harus dianggap sebagai kekurangan.

Pertama. Teori klasik ujian dan konsep kebolehpercayaan tertumpu pada pengiraan jumlah penunjuk ujian, yang merupakan hasil daripada penambahan markah yang diperolehi dalam tugasan individu. Ya, di tempat kerja

Kedua. Faktor kebolehpercayaan melibatkan penilaian ke atas magnitud serakan penunjuk yang diukur. Ia berikutan bahawa pekali kebolehpercayaan akan lebih rendah jika (perkara lain adalah sama) sampel lebih homogen. Tiada pekali tunggal ketekalan dalaman item ujian, pekali ini sentiasa "kontekstual". Crocker dan Algina (1986), sebagai contoh, menawarkan formula khas "pembetulan sampel homogen" yang direka untuk skor tertinggi dan terendah yang diperoleh oleh pengambil ujian. Adalah penting bagi pakar diagnostik untuk mengetahui ciri-ciri variasi dalam sampel, jika tidak, dia tidak akan dapat menggunakan pekali ketekalan dalaman yang ditunjukkan dalam manual untuk ujian ini.

Ketiga. Fenomena pengurangan kepada min aritmetik adalah akibat logik dari konsep kebolehpercayaan klasik. Jika skor pada ujian berubah-ubah (iaitu, ia tidak cukup dipercayai), maka ada kemungkinan apabila prosedur diulang, subjek dengan markah rendah akan menerima lebih banyak Skor tinggi begitu juga sebaliknya, mata pelajaran yang mendapat markah tinggi adalah rendah. Artifak prosedur pengukuran ini tidak boleh disalah anggap sebagai perubahan atau manifestasi sebenar proses pembangunan. Tetapi pada masa yang sama, tidak mudah untuk membezakan antara mereka, kerana kemungkinan perubahan dalam perjalanan pembangunan tidak boleh diketepikan. Untuk kepastian sepenuhnya, perbandingan dengan kumpulan kawalan adalah perlu.

Ciri keempat ujian yang direka mengikut prinsip teori klasik ialah kehadiran data normatif. Mengetahui norma ujian membolehkan penyelidik mentafsir keputusan ujian dengan secukupnya. Di luar norma, markah ujian tidak bermakna. Pembangunan norma ujian adalah usaha yang agak mahal, kerana ahli psikologi mesti mendapatkan keputusan ujian pada sampel yang mewakili.

2 Ya ter Laak

Jika kita bercakap tentang kelemahan konsep klasik kebolehpercayaan, maka adalah sesuai untuk memetik kenyataan Si-tsma (1992, ms. 123-125). Beliau menyatakan bahawa andaian pertama dan terpenting bagi teori ujian klasik ialah keputusan ujian mematuhi prinsip selang. Walau bagaimanapun, tiada kajian untuk menyokong andaian ini. Sebenarnya, ini adalah "pengukuran mengikut peraturan yang ditetapkan secara sewenang-wenangnya." Ciri ini meletakkan teori ujian klasik pada kelemahan berbanding dengan skala pengukuran sikap dan, sudah tentu, berbanding dengan teori ujian moden. Banyak kaedah analisis data (analisis varians, analisis regresi, korelasi dan analisis faktor) adalah berdasarkan andaian kewujudan skala selang. Walau bagaimanapun, ia tidak mempunyai asas yang kukuh. Mempertimbangkan skala hasil sebenar sebagai skala nilai ciri psikologi (contohnya, kebolehan aritmetik, kecerdasan, neurotikisme) hanya boleh diandaikan.

Kenyataan kedua menyangkut fakta bahawa keputusan ujian tidak penunjuk mutlak daripada ciri psikologi ini atau itu orang yang diuji, mereka mesti dianggap hanya sebagai keputusan prestasi ujian tertentu. Dua ujian mungkin mendakwa untuk mengukur ciri psikologi yang sama (cth, kecerdasan, kebolehan lisan, extraversion), tetapi ini tidak bermakna kedua-dua ujian ini adalah setara dan mempunyai keupayaan yang sama. Membandingkan prestasi dua orang yang telah diuji dengan ujian yang berbeza adalah tidak betul. Perkara yang sama berlaku untuk menyelesaikan dua ujian berbeza oleh satu mata pelajaran. Teguran ketiga berkaitan dengan andaian bahawa ralat piawai pengukuran adalah sama untuk mana-mana tahap keupayaan boleh diukur dalam individu. Walau bagaimanapun, tiada pengesahan empirikal terhadap andaian ini. Jadi, sebagai contoh, tidak ada jaminan bahawa seorang pengambil ujian dengan baik keupayaan matematik apabila bekerja dengan ujian aritmetik yang agak mudah akan menerima markah yang tinggi. Dalam kes ini, seseorang yang mempunyai kebolehan rendah atau sederhana berkemungkinan besar menerima penarafan yang tinggi.

Dalam kerangka teori ujian moden atau teori analisis jawapan, item ujian mengandungi huraian yang besar

bilangan model kemungkinan respons responden. Model ini berbeza dalam andaian asasnya dan keperluan data. Model Rasch sering dilihat sebagai sinonim dengan teori analisis respons item (1RT). Malah, ini hanya salah satu model. Formula yang dibentangkan di dalamnya untuk menerangkan lengkung ciri tetapan g adalah seperti berikut:

di mana g- tugas ujian yang berasingan; exp- fungsi eksponen (pergantungan bukan linear); δ ("delta") - tahap kesukaran ujian.

Item ujian lain seperti h, juga mendapat lengkung ciri mereka sendiri. Pemenuhan syarat δh >δg (g bermakna h- lebih tugas yang susah. Oleh itu, untuk sebarang nilai penunjuk Θ ("theta" - sifat terpendam kebolehan yang diuji) kebarangkalian berjaya menyelesaikan tugas h kurang. Model ini dipanggil ketat, kerana jelas bahawa dengan tahap ekspresi sifat yang rendah, kebarangkalian untuk menyelesaikan tugas adalah hampir sifar. Dalam model ini, tiada tempat untuk tekaan dan andaian. Untuk item dengan pilihan, tidak perlu membuat andaian tentang kebarangkalian kejayaan. Di samping itu, model ini adalah ketat dalam erti kata bahawa semua tugas ujian mesti mempunyai keupayaan diskriminasi yang sama (diskriminasi yang tinggi ditunjukkan dalam kecuraman lengkung; di sini adalah mungkin untuk membina skala Guttmann, mengikut mana, pada setiap titik lengkung ciri, kebarangkalian untuk menyelesaikan tugas berbeza dari O hingga 1). Disebabkan keadaan ini, tidak semua tugas boleh dimasukkan dalam ujian yang dibuat berdasarkan model Rasch.

Terdapat beberapa varian model ini (cth. Birnbaura, 1968, See Lord & Novik). Ia membolehkan kewujudan tugas dengan diskriminatif yang berbeza

kebolehan.

Penyelidik Belanda Mokken (1971) telah membangunkan dua model untuk analisis tindak balas kepada item ujian, keperluan yang tidak begitu ketat seperti dalam model Rasch, dan oleh itu, mungkin, lebih realistik. Sebagai syarat utama

Viya Mokken mengemukakan pendirian bahawa lengkung ciri tugas harus mengikut monoton, tanpa jeda. Semua tugas ujian bertujuan untuk mengkaji ciri psikologi yang sama, yang harus diukur dengan dalam. Sebarang bentuk pergantungan ini dibenarkan, selagi ia tidak putus. Oleh itu, bentuk lengkung ciri tidak ditentukan oleh mana-mana fungsi tertentu. "Kebebasan" ini membolehkan anda menggunakan lebih banyak item ujian, dan tahap penilaian tidak lebih tinggi daripada biasa.

Metodologi model tindak balas ujian (IRT) berbeza daripada kebanyakan eksperimen dan kajian korelasi. Model matematik direka untuk mengkaji tingkah laku, kognitif, ciri-ciri emosi, serta fenomena perkembangan. Fenomena yang sedang dipertimbangkan ini selalunya terhad kepada tindak balas tugas, yang menyebabkan Mellenberg (1990) memanggil teori IRT sebagai "teori mini tentang tingkah laku mini." Hasil kajian sedikit sebanyak boleh dipersembahkan sebagai keluk ketekalan, terutamanya dalam kes di mana tiada idea teori tentang ciri yang dikaji. Sehingga kini, kami hanya mempunyai beberapa ujian kecerdasan, kebolehan dan ujian personaliti yang dibuat berdasarkan pelbagai model teori IRT. Varian model Rasch lebih biasa digunakan dalam pembangunan ujian pencapaian (Verhelst, 1993), manakala model Mokken lebih sesuai untuk fenomena perkembangan (lihat juga Bab 6).

Maklum balas pengambil ujian terhadap item ujian adalah unit asas model IRT. Jenis tindak balas ditentukan oleh tahap ekspresi ciri yang dikaji dalam seseorang. Ciri sedemikian boleh, sebagai contoh, kebolehan aritmetik atau spatial. Dalam kebanyakan kes, ini adalah satu atau lain aspek kecerdasan, ciri pencapaian atau ciri personaliti. Adalah diandaikan bahawa antara kedudukan ini orang tertentu dalam julat tertentu ciri yang dikaji dan kebarangkalian berjaya menyelesaikan tugasan tertentu, terdapat hubungan bukan linear. Ketidak-linearan pergantungan ini dalam erti kata tertentu intuitif. Frasa terkenal“Setiap permulaan adalah sukar” (perlahan tidak

permulaan baris) dan "Menjadi seorang kudus tidak begitu mudah", bermakna penanaman selanjutnya selepas mencapai tahap tertentu. tahap pergi sukar. Keluk perlahan-lahan menghampiri tetapi hampir tidak pernah mencapai kadar kejayaan 100%.

Sesetengah model agak bertentangan dengan pemahaman intuitif kami. Mari kita ambil contoh ini. Seseorang yang mempunyai indeks keterukan ciri sewenang-wenangnya bersamaan dengan 1.5 mempunyai kebarangkalian 60 peratus untuk berjaya dalam menyelesaikan tugas. Ini bertentangan dengan pemahaman intuitif kami tentang situasi sedemikian, kerana anda boleh menyelesaikan tugas itu dengan jayanya, atau tidak mengatasinya sama sekali. Mari kita ambil contoh ini: 100 kali seseorang cuba mengambil ketinggian 1m 50 cm. Kejayaan menemaninya 60 kali, i.e. ia mempunyai kadar kejayaan 60 peratus.

Untuk menilai keterukan sesuatu ciri, sekurang-kurangnya dua tugasan diperlukan. Model Rasch melibatkan penentuan keterukan ciri, tanpa mengira kesukaran tugas. Ini juga bertentangan dengan gerak hati kita: andaikan seseorang mempunyai peluang 80 peratus untuk melompat melebihi 1.30 m. kebarangkalian untuk melompat melebihi 1.70 m. Oleh itu, tanpa mengira nilai pembolehubah bebas (ketinggian), seseorang boleh menganggarkan keupayaan sesuatu orang untuk melompat tinggi.

Terdapat kira-kira 50 model IRT (Goldstein & Wood, 1989).Terdapat banyak fungsi bukan linear yang menerangkan (menerangkan) kebarangkalian kejayaan dalam menyelesaikan sesuatu tugasan atau kumpulan tugasan. Keperluan dan batasan model ini adalah berbeza, dan perbezaan ini boleh didapati dengan membandingkan model Rasch dan skala Mokken. Keperluan untuk model ini termasuk:

1) keperluan untuk menentukan ciri yang dikaji dan menilai kedudukan seseorang dalam julat sifat ini;

2) penilaian urutan tugas;

3) menyemak model tertentu. Dalam psikometrik, banyak prosedur telah dibangunkan untuk menguji model.

Sesetengah buku rujukan menganggap teori IRT sebagai satu bentuk analisis item ujian (lihat, sebagai contoh,

Croker & Algina, J 986). Walau bagaimanapun, seseorang boleh berhujah bahawa teori IRT adalah "teori mini tentang tingkah laku mini". Penyokong teori IRT menyedari bahawa jika konsep (model) peringkat pertengahan tidak sempurna, maka apakah yang boleh dikatakan tentang pembinaan yang lebih kompleks dalam psikologi?

Teori ujian klasik dan moden. Orang ramai tidak boleh tidak membandingkan perkara yang kelihatan hampir sama. (Mungkin persamaan sehari-hari psikometrik terdiri terutamanya dalam membandingkan orang mengikut ciri-ciri penting dan memilih antara mereka). Setiap teori yang dikemukakan - kedua-dua teori pengukuran ralat anggaran dan model matematik tindak balas kepada item ujian - mempunyai penyokongnya (Goldstein & Wood, 1986).

Model IRT tidak menyebabkan celaan bahawa ini adalah "penilaian berasaskan peraturan", berbeza dengan teori ujian klasik. Model IRT tertumpu kepada analisis ciri-ciri yang dianggarkan. Ciri personaliti dan ciri tugas dinilai menggunakan skala (ordinal atau selang). Selain itu, adalah mungkin untuk membandingkan penunjuk prestasi ujian yang berbeza bertujuan untuk mengkaji ciri yang serupa. Akhir sekali, kebolehpercayaan tidak sama untuk setiap nilai pada skala, dan nilai purata biasanya lebih dipercayai daripada nilai pada permulaan dan akhir skala. Oleh itu, model IRT secara teorinya lebih unggul. Terdapat juga perbezaan dalam kegunaan praktikal teori ujian moden dan teori klasik (Sijstma, 1992, ms. 127-130). Teori ujian moden adalah lebih kompleks daripada teori klasik, jadi ia kurang biasa digunakan oleh bukan pakar. Lebih-lebih lagi, IRT membuat tuntutan khas pada tugasan. Ini bermakna item harus dikecualikan daripada ujian jika ia tidak memenuhi keperluan model. Peraturan ini terpakai selanjutnya untuk tugas-tugas yang merupakan sebahagian daripada ujian yang digunakan secara meluas, dibina berdasarkan prinsip teori klasik. Ujian menjadi lebih pendek dan oleh itu kurang boleh dipercayai.

IRT menawarkan model matematik untuk mengkaji fenomena sebenar. Model seharusnya membantu kita memahami aspek utama fenomena ini. Walau bagaimanapun, terdapat isu teori utama di sini. Model boleh dipertimbangkan

sebagai pendekatan untuk mengkaji realiti kompleks di mana kita hidup. Tetapi model dan realiti bukanlah perkara yang sama. Menurut pandangan pesimis, adalah mungkin untuk memodelkan jenis tingkah laku tunggal (dan, lebih-lebih lagi, bukan yang paling menarik). Anda juga boleh menemui kenyataan bahawa realiti tidak tertakluk kepada pemodelan sama sekali, kerana. ia tidak mematuhi hukum sebab dan akibat semata-mata. AT kes terbaik adalah mungkin untuk memodelkan fenomena tingkah laku individu (ideal). Terdapat satu lagi pandangan yang lebih optimistik tentang kemungkinan pemodelan. Kedudukan di atas menghalang kemungkinan pemahaman yang mendalam tentang sifat fenomena tingkah laku manusia. Penggunaan satu model atau yang lain menimbulkan beberapa persoalan umum dan asas. Pada pendapat kami, tidak syak lagi bahawa IRT adalah satu konsep secara teori dan teknikal lebih unggul daripada teori ujian klasik.

Tujuan praktikal ujian, atas dasar teori apa pun ia dicipta, adalah untuk menentukan kriteria penting dan menetapkan berdasarkan ciri-ciri pembinaan psikologi tertentu. Adakah model IRT mempunyai kelebihan dalam hal ini juga? Ada kemungkinan ujian berdasarkan model ini tidak memberikan ramalan yang lebih tepat daripada ujian berdasarkan teori klasik, dan ada kemungkinan bahawa sumbangannya kepada pembangunan konstruk psikologi tidak lebih signifikan. Pakar diagnostik memilih kriteria yang berkaitan secara langsung dengan individu, institusi atau komuniti. Model yang lebih unggul dari segi saintifik tidak "ipso facto" mentakrifkan kriteria yang lebih sesuai dan agak terhad dalam menerangkan konstruk saintifik. Adalah jelas bahawa pembangunan ujian berdasarkan teori klasik akan diteruskan, tetapi pada masa yang sama model IRT baru akan dicipta, melanjutkan kepada kajian lebih banyak fenomena psikologi.

Dalam teori ujian klasik, konsep "kebolehpercayaan" dan "kesahan" dibezakan. Keputusan ujian mesti boleh dipercayai, i.e. keputusan awal dan ujian semula hendaklah konsisten. selain itu,

* ipso facto(varnis) - dengan sendirinya (lebih kurang transl.).

keputusan hendaklah bebas (sejauh mungkin) daripada ralat anggaran. Kehadiran kesahan adalah salah satu keperluan untuk keputusan yang diperolehi. Pada masa yang sama, kebolehpercayaan dianggap sebagai syarat yang perlu, tetapi belum mencukupi untuk kesahihan ujian.

Konsep kesahan membayangkan bahawa keputusan yang diperolehi berkaitan dengan sesuatu yang penting dari segi praktikal atau teori. Kesimpulan yang diambil daripada gred ujian, mesti sah. Dua jenis kesahan yang paling kerap diperkatakan: ramalan (kriteria) dan konstruktif. Terdapat juga jenis kesahan lain (lihat Bab 3). Selain itu, kesahihan juga boleh ditentukan dalam kes eksperimen kuasi (Cook & Campbell, 1976, Cook & Shadish, 1994). Walau bagaimanapun, jenis kesahan utama masih kesahan ramalan, yang difahami sebagai keupayaan untuk meramalkan sesuatu yang signifikan tentang tingkah laku masa depan berdasarkan keputusan ujian, serta kemungkinan pemahaman yang lebih mendalam tentang satu atau lain sifat atau kualiti psikologi.

Jenis kesahan yang dibentangkan dibincangkan dalam setiap buku panduan dan disertakan dengan penerangan kaedah untuk menganalisis kesahan sesuatu ujian. Analisis faktor lebih sesuai untuk menentukan pengesahan konstruk, dan persamaan regresi linear digunakan untuk menganalisis kesahan ramalan. Ciri-ciri tertentu (kejayaan, keberkesanan terapi) boleh diramalkan berdasarkan satu atau lebih petunjuk, separuh dipelajari apabila bekerja dengan ujian intelek atau personaliti. Teknik pemprosesan data seperti korelasi, regresi, analisis varians, analisis korelasi separa dan varians berfungsi untuk menentukan kesahan ramalan sesuatu ujian.

Kesahan kandungan juga sering diterangkan. Diandaikan bahawa semua tugas dan tugas ujian harus tergolong dalam kawasan tertentu (sifat mental, tingkah laku, dll.). Konsep kesahan kandungan mencirikan pematuhan setiap tugas ujian dengan kawasan yang diukur. Kesahan kandungan kadangkala dilihat sebagai sebahagian daripada kebolehpercayaan atau "kebolehpercayaan umum" (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Namun, apabila

Apabila memilih item untuk ujian pencapaian dalam bidang subjek tertentu, ia juga penting untuk memberi perhatian kepada peraturan untuk memasukkan item dalam ujian.

Dalam teori ujian klasik, kebolehpercayaan dan kesahan dianggap relatif bebas antara satu sama lain. Tetapi terdapat pemahaman lain tentang hubungan antara konsep ini. Teori moden ujian adalah berdasarkan aplikasi model. Parameter dinilai dalam beberapa model. Jika tugas itu tidak memenuhi keperluan model, maka dalam rangka kerja model ini ia diiktiraf sebagai tidak sah. Pengesahan binaan adalah sebahagian daripada pengesahan model itu sendiri. Pengesahan ini merujuk terutamanya kepada ujian untuk kewujudan sifat terpendam kepentingan satu dimensi dengan ciri skala yang diketahui. Skor skala, sudah tentu, boleh digunakan untuk mentakrifkan kriteria yang sesuai, dan boleh dikaitkan dengan skor daripada konstruk lain untuk memberikan maklumat tentang kesahan konstruk konvergen dan divergen.

Psikodiagnostik adalah analog dengan bahasa, digambarkan sebagai kesatuan empat komponen yang dibentangkan pada tiga peringkat. Komponen pertama, teori ujian, adalah serupa dengan sintaks, tatabahasa bahasa. Menjana tatabahasa (generatif) adalah, di satu pihak, model yang bijak, sebaliknya, sistem yang mematuhi peraturan. Dengan peraturan ini berdasarkan mudah cadangan afirmatif kompleks dibina. Walau bagaimanapun, pada masa yang sama, model ini mengenepikan penerangan tentang bagaimana proses komunikasi diatur (apa yang dihantar dan apa yang dirasakan), dan untuk tujuan apa ia dijalankan. Untuk memahami ini, pengetahuan tambahan diperlukan. Perkara yang sama boleh dikatakan mengenai teori ujian: ia perlu dalam psikodiagnostik, tetapi ia tidak dapat menjelaskan apa yang dilakukan oleh pakar psikodiagnostik dan apa matlamatnya.

1.3.2. Teori psikologi dan pembinaan psikologi

Psikodiagnostik sentiasa diagnosis sesuatu yang khusus: ciri peribadi, tingkah laku, pemikiran, emosi. Ujian direka untuk menilai perbezaan individu. Terdapat beberapa konsep

perbezaan individu, setiap satunya mempunyai ciri tersendiri. Jika diakui bahawa psikodiagnostik tidak terhad hanya kepada penilaian perbezaan individu, maka teori lain menjadi penting untuk psikodiagnostik. Contohnya ialah penilaian perbezaan dalam proses perkembangan mental dan perbezaan dalam persekitaran sosial. Walaupun penilaian perbezaan individu bukanlah sifat psikodiagnostik yang sangat diperlukan, namun, terdapat tradisi penyelidikan tertentu dalam bidang ini. Psikodiagnostik bermula dengan penilaian perbezaan kecerdasan. Tugas utama ujian adalah untuk "menentukan transmisi keturunan genius" (Gallon) atau pemilihan kanak-kanak untuk latihan (Binet, Simon). Pengukuran IQ menerima pemahaman teori dan perkembangan praktikal dalam karya Spearman (Great Britain) dan Thurstone (AS). Raymond B. Cattell melakukan perkara yang sama untuk menilai ciri personaliti. Psikodiagnostik menjadi berkait rapat dengan teori dan idea tentang perbezaan individu dalam pencapaian (penilaian keupayaan marginal) dan bentuk tingkah laku (tahap kefungsian tipikal). Tradisi ini terus berkesan sehingga kini. Dalam buku teks mengenai psikodiagnostik, perbezaan dalam persekitaran sosial adalah kurang kerap dinilai berbanding dengan pertimbangan ciri-ciri proses perkembangan itu sendiri. Tiada penjelasan yang munasabah untuk ini. Di satu pihak, diagnostik tidak terhad kepada teori dan konsep tertentu. Sebaliknya, ia memerlukan teori, kerana di dalamnya kandungan yang didiagnosis (iaitu, "apa" yang didiagnosis) ditentukan. Jadi, sebagai contoh, kecerdasan boleh dianggap sebagai ciri umum, dan sebagai asas untuk pelbagai kebolehan bebas antara satu sama lain. Jika psikodiagnostik cuba "menjauh" dari satu atau teori lain, maka asas proses psikodiagnostik adalah perwakilan akal. Penyelidikan menggunakan pelbagai cara analisis data, dan logik umum penyelidikan menentukan pilihan model matematik tertentu dan menentukan struktur konsep psikologi yang digunakan. Kaedah statistik matematik sedemikian

seperti analisis varians, analisis regresi, analisis faktor, pengiraan korelasi mencadangkan kewujudan kebergantungan linear. Dalam kes penggunaan kaedah ini yang salah, mereka "membawa" struktur mereka kepada data yang diterima dan konstruk yang digunakan.

Idea tentang perbezaan dalam persekitaran sosial dan tentang perkembangan personaliti hampir tidak mempunyai kesan ke atas psikodiagnostik. Buku teks (lihat, sebagai contoh, Murphy & Davidshofer, 1988) membincangkan teori ujian klasik dan membincangkan kaedah pemprosesan statistik yang berkaitan, menerangkan ujian terkenal, membincangkan penggunaan psikodiagnostik dalam amalan: dalam psikologi pengurusan, dalam pemilihan kakitangan, dalam menilai ciri psikologi seseorang.

Teori perbezaan individu (serta idea tentang perbezaan antara persekitaran sosial dan tentang perkembangan mental) adalah sama dengan kajian semantik bahasa. Ini adalah kajian kedua-dua intipati, dan kandungan, dan makna. Makna disusun mengikut cara tertentu (seperti pembinaan psikologi), contohnya, dengan persamaan atau kontras (analogi, penumpuan, perbezaan).

1.3.3. Ujian psikologi dan kaedah metodologi lain

Komponen ketiga skim yang dicadangkan ialah ujian, prosedur dan kaedah metodologi di mana maklumat tentang ciri-ciri personaliti dikumpul. Drene dan Siitsma (1990, p. 31) mentakrifkan ujian seperti berikut: “Ujian psikologi dianggap sebagai klasifikasi mengikut sistem tertentu atau sebagai prosedur pengukuran yang membolehkan anda membuat pertimbangan tertentu tentang satu atau lebih ciri yang dikenal pasti secara empirik atau dibuktikan secara teori bagi aspek tertentu tingkah laku manusia (di luar situasi ujian). Dalam kes ini, tindak balas responden terhadap sejumlah rangsangan yang dipilih dengan teliti dipertimbangkan, dan tindak balas yang diperoleh dibandingkan dengan norma ujian.

Diagnostik memerlukan ujian dan teknik untuk mengumpul maklumat yang boleh dipercayai, tepat dan sah tentang ciri

dan ciri yang menonjol personaliti, pemikiran, emosi dan tingkah laku manusia. Di samping membangunkan prosedur ujian, komponen ini juga termasuk soalan berikut: bagaimana ujian dibuat, bagaimana tugasan dirumus dan dipilih, bagaimana proses ujian diteruskan, apakah keperluan untuk keadaan ujian, bagaimana ralat pengukuran diambil kira, bagaimana keputusan ujian dikira dan ditafsir.

Dalam proses membangunkan ujian, strategi rasional dan empirikal dibezakan. Aplikasi strategi rasional bermula dengan definisi konsep asas (contohnya, konsep kecerdasan, extraversion), dan selaras dengan idea ini, tugasan ujian dirumuskan. Contoh strategi tersebut ialah konsep analisis aspek (the facet theory) Guttmann (1957, 1968, 1978). Pertama, pelbagai aspek konstruk utama ditentukan, kemudian tugas dan tugasan dipilih sedemikian rupa sehingga setiap aspek ini diambil kira. Strategi kedua ialah tugasan dipilih secara empirikal. Sebagai contoh, jika penyelidik cuba membuat ujian minat profesional yang akan membezakan profesional perubatan daripada jurutera, maka prosedurnya adalah seperti ini. Kedua-dua kumpulan responden mesti menjawab semua item ujian, dan item-item dalam jawapan yang didapati perbezaan ketara secara statistik dimasukkan dalam versi akhir ujian. Jika, sebagai contoh, terdapat perbezaan antara kumpulan dalam respons kepada pernyataan "Saya suka memancing", maka pernyataan ini menjadi elemen ujian. Perkara utama buku ini ialah ujian itu dikaitkan dengan teori konseptual atau taksonomi yang mentakrifkan ciri-ciri ini.

Tujuan ujian biasanya ditakrifkan dalam arahan penggunaannya. Ujian harus diseragamkan supaya ia dapat mengukur perbezaan antara orang, bukan antara keadaan ujian. Walau bagaimanapun, terdapat penyelewengan daripada penyeragaman dalam prosedur yang dipanggil "menguji had" (menguji had) dan "ujian potensi pembelajaran" (ujian potensi pembelajaran). Di bawah keadaan ini, responden dibantu dalam proses tersebut

menguji dan kemudian menilai kesan prosedur sedemikian ke atas keputusan. Pengiraan mata untuk jawapan kepada tugasan adalah objektif, i.e. dijalankan mengikut prosedur standard. Tafsiran keputusan yang diperoleh juga ditakrifkan dengan ketat dan dijalankan berdasarkan norma ujian.

Komponen ketiga psikodiagnostik - ujian psikologi, alat, prosedur - mengandungi tugas-tugas tertentu, yang merupakan unit psikodiagnostik terkecil dan dalam pengertian ini tugasan adalah serupa dengan fonem bahasa. Bilangan kemungkinan gabungan fonem adalah terhad. Hanya struktur fonemik tertentu sahaja yang boleh membentuk perkataan dan ayat yang memberi maklumat kepada pendengar. Juga dan tugas ujian: hanya dalam gabungan tertentu antara satu sama lain mereka boleh menjadi alat yang berkesan anggaran konstruk yang sepadan.

Soalan utama: Ujian sebagai alat ukuran. Teori ujian asas. Fungsi, kemungkinan dan had ujian. Penggunaan ujian dalam penilaian kakitangan. Kebaikan dan keburukan menggunakan ujian. Bentuk dan jenis tugasan ujian. Teknologi pembinaan tugas. Penilaian kualiti ujian. Kebolehpercayaan dan kesahan. Uji perisian pembangunan. 2

Ujian sebagai alat ukuran Konsep asas dalam testologi: pengukuran, ujian, kandungan dan bentuk tugasan, kebolehpercayaan dan kesahan hasil pengukuran. Selain itu, testologi menggunakan konsep sains statistik seperti persampelan dan populasi umum, purata, variasi, korelasi, regresi, dll. 4

Tugas ujian ialah unit yang cekap dari segi didaktik dan teknologi bahan kawalan, sebahagian daripada ujian yang memenuhi keperluan ketulenan kandungan subjek (atau satu dimensi), kandungan dan ketepatan logik, ketepatan bentuk, kebolehterimaan imej geometri tugasan. 6

Ujian tradisional ialah kaedah piawai untuk mendiagnosis tahap dan struktur kesediaan. Dalam ujian sedemikian, semua subjek menjawab tugasan yang sama, pada masa yang sama, di bawah keadaan yang sama dan dengan peraturan yang sama untuk menilai jawapan. Untuk mencapai matlamat ujian, anda boleh membuat tak terkira ujian, dan kesemuanya boleh sepadan dengan pencapaian tugas. lapan

Professiogram (dari Lat. Professio specialty + Gramma record) ialah sistem ciri yang menerangkan profesion tertentu, dan juga termasuk senarai norma dan keperluan untuk pekerja mengikut profesion atau kepakaran ini. Khususnya, professiogram mungkin termasuk senarai ciri psikologi yang mesti dipenuhi oleh wakil kumpulan profesional tertentu. 9

Teori ujian asas Karya saintifik pertama mengenai teori ujian muncul pada awal abad kedua puluh, di persimpangan psikologi, sosiologi, pedagogi dan lain-lain yang dipanggil sains tingkah laku. Psikologi asing memanggil ini psikometrik sains (Psychometrika), dan guru - pengukuran pedagogi (Pengukuran pendidikan). Tidak tertutup oleh ideologi dan politik, tafsiran nama "testology" adalah mudah dan telus: sains ujian. sepuluh

Peringkat pertama - prasejarah - dari zaman dahulu hingga lewat XIX berabad-abad apabila bentuk pra-saintifik kawalan pengetahuan dan kebolehan adalah perkara biasa; tempoh kedua, klasik, berlangsung dari awal 20-an hingga akhir 60-an, di mana teori klasik ujian dicipta; tempoh ketiga - teknologi - yang bermula pada tahun 70-an - masa pembangunan kaedah untuk ujian dan pembelajaran penyesuaian, metodologi untuk pembangunan berkesan ujian dan tugasan ujian untuk penilaian parametrik subjek dari segi kualiti terpendam yang diukur. sebelas

Fungsi, kemungkinan dan had ujian Ujian yang digunakan dalam pemilihan bertujuan untuk mendapatkan gambaran psikologi calon, menilai kebolehannya, serta pengetahuan dan kemahiran profesional. Ujian membolehkan anda membandingkan calon antara satu sama lain atau dengan piawaian, iaitu calon yang ideal. Ujian digunakan untuk mengukur kualiti seseorang yang diperlukan untuk prestasi kerja yang berkesan. Sesetengah ujian direka bentuk sedemikian rupa sehingga majikan sendiri mentadbir ujian dan mengira keputusan. Yang lain memerlukan khidmat perunding yang berpengalaman untuk memastikan permohonan yang betul. 12

Had penggunaan ujian adalah berkaitan - dengan pentadbiran mahal mereka; - dengan kesesuaian untuk menilai kebolehan seseorang; - ujian lebih berjaya meramal kejayaan dalam pekerjaan yang mengandungi jangka pendek tugas profesional, dan tidak begitu mudah dalam kes di mana tugas yang diselesaikan di tempat kerja mengambil masa beberapa hari atau minggu. 13

2. Istilah yang digunakan hendaklah disesuaikan dengan yang tertentu penonton sasaran. Artikel atau artikel berlebihan yang mengandungi dua atau lebih soalan juga harus dikecualikan, kerana ia kadangkala mengelirukan responden dan menyukarkan tafsiran. 17

3. Untuk memenuhi semua keperluan ini, anda harus meneliti keseluruhan bank soalan artikel demi artikel dan menganalisis tujuan setiap soalan tersebut. Sebagai contoh, jika ujian sedang dibangunkan untuk mengukur keupayaan analisis akauntan perantis, adalah wajar mempertimbangkan maksud "keupayaan analisis" dalam kes itu. lapan belas

5. Apabila soalan dan format pemarkahan dipilih, ia hendaklah ditukar kepada format yang mesra pengguna, dengan arahan bertulis yang jelas dan contoh soalan; supaya peserta ujian memahami sepenuhnya apa yang diperlukan daripada mereka. dua puluh

6. Selalunya, pada peringkat perkembangan ini, lebih banyak soalan dimasukkan dalam ujian daripada yang diperlukan. Mengikut beberapa anggaran, tiga kali ganda lebih banyak daripada yang akan kekal dalam ujian akhir atau sistem pengukuran. Titik permulaan kemudiannya adalah untuk menguji ujian yang sedang dibangunkan pada sampel pekerja sedia ada yang agak besar untuk memastikan semua soalan mudah difahami. 21

7. Ujian pengetahuan biasanya bermula dengan soalan mudah secara beransur-ansur menjadi lebih sukar menjelang akhir. Apabila ujian bertujuan untuk mengukur sikap sosial dan ciri-ciri keperibadian, mungkin berguna untuk menggantikan artikel dengan perkataan negatif dan positif untuk mengelakkan tindak balas yang tidak difikirkan. 22

8. Langkah terakhir ialah menggunakan ujian pada sampel perwakilan yang besar untuk mewujudkan piawaian prestasi, kesahan dan kesahan sebelum ia boleh digunakan sebagai alat pemilihan. Di samping itu, kesaksamaan ujian mesti ditentukan untuk memastikan ia tidak mendiskriminasi mana-mana subkumpulan populasi (cth, perbezaan etnik). 23

Penilaian kualiti ujian Agar kaedah pemilihan cukup berkesan, ia mestilah boleh dipercayai, sah dan boleh dipercayai. Kebolehpercayaan kaedah pemilihan dicirikan oleh tidak mudah terdedah kepada ralat sistematik dalam pengukuran, iaitu, ketekalannya dalam keadaan yang berbeza. 24

Dalam amalan, kebolehpercayaan dalam membuat pertimbangan dicapai dengan membandingkan keputusan dua atau lebih ujian serupa yang dijalankan pada hari yang berbeza. Satu lagi cara untuk meningkatkan kebolehpercayaan ialah membandingkan keputusan beberapa kaedah pemilihan alternatif (cth ujian dan temu bual). Jika keputusan serupa atau sama, ia boleh dianggap betul. 25

Kebolehpercayaan bermaksud ukuran yang diambil akan memberikan hasil yang sama seperti yang sebelumnya iaitu hasil penilaian tidak dipengaruhi oleh faktor luaran. Kesahan bermaksud kaedah mengukur dengan tepat apa yang ingin dilakukan. Ketepatan maksimum yang mungkin bagi maklumat yang diperoleh dengan kaedah yang dibangunkan khas dalam kajian saintifik, dihadkan oleh faktor teknikal dan tidak melebihi 0.8. 26

Dalam amalan pemilihan kakitangan, diperhatikan bahawa kebolehpercayaan pelbagai kaedah anggaran terletak dalam selang: 0.1 - 0.2 - temu bual tradisional; 0.2 - 0.3 - cadangan; 0.3 - 0.5 - ujian profesional; 0.5 - 0.6 - temu bual berstruktur, temu bual berasaskan kompetensi; 0.5 - 0.7 - kognitif dan ujian personaliti; 0.6 - 0.7 - pendekatan berasaskan kompetensi (penilaian - pusat). 27

Kesahan merujuk kepada tahap ketepatan keputusan, kaedah atau kriteria tertentu "meramalkan" prestasi masa depan orang yang diuji. Kesahan kaedah merujuk kepada kesimpulan yang dibuat daripada prosedur, bukan kepada prosedur itu sendiri. Iaitu, kaedah pemilihan itu sendiri boleh dipercayai, tetapi tidak sesuai dengan tugas tertentu: untuk mengukur bukan apa yang diperlukan dalam kes ini. 28

Perisian Reka Bentuk Ujian amalan domestik pelbagai program bersepadu dengan modul "Psikodiagnostik" dibentangkan, sebagai contoh, program "1 C: Pengurusan Gaji dan Personel 8.0" dengan modul "Psikodiagnostik", dibangunkan bersama sekumpulan guru Jabatan Psikologi Personaliti dan psikologi umum Fakulti Psikologi, Universiti Negeri Moscow. M. V. Lomonosov di bawah arahan psych Dr. sains, prof. A. N. Guseva. Simulator latihan untuk membangunkan sistem penilaian kakitangan dan menyesuaikan kaedah ujian Fakulti Psikologi TSU, juga dibangunkan berdasarkan "1 C: Enterprise 8.2" oleh Personel Soft. 29

Rujukan: Pemilihan dan pengambilan: teknologi ujian dan penilaian / Dominic Cooper, Ivan T. Robertson, Gordon Tinline. - M., rumah penerbitan "Vershina", - 156 p. Sokongan psikologi aktiviti profesional: teori dan amalan / Ed. Prof. G. S. Nikiforova. - St. Petersburg: Ucapan, - 816 p. tiga puluh

Konsep asas teori ujian.

Pengukuran atau ujian yang dijalankan untuk menentukan keadaan atau kebolehan seseorang atlit dipanggil ujian. Sebarang ujian termasuk pengukuran. Tetapi tidak setiap perubahan berfungsi sebagai ujian. Prosedur pengukuran atau ujian dipanggil ujian.

Ujian berdasarkan tugas motor dipanggil ujian motor. Terdapat tiga kumpulan ujian motor:

1. Latihan kawalan, melakukan yang mana atlet menerima tugas untuk menunjukkan hasil yang maksimum.
2. Ujian kefungsian standard, di mana tugas, sama untuk semua orang, didos sama ada mengikut jumlah kerja yang dilakukan, atau mengikut magnitud perubahan fisiologi.
3. Ujian fungsi maksimum, di mana atlet mesti menunjukkan keputusan maksimum.

Ujian berkualiti tinggi memerlukan pengetahuan tentang teori pengukuran.

Konsep asas teori pengukuran.

Pengukuran ialah pengenalpastian korespondensi antara fenomena yang dikaji, di satu pihak, dan nombor, di pihak yang lain.

Asas teori pengukuran ialah tiga konsep: skala ukuran, unit ukuran dan ketepatan ukuran.

Skala pengukuran.

Skala pengukuran ialah undang-undang yang mana nilai berangka diberikan kepada hasil yang diukur apabila ia bertambah atau berkurang. Pertimbangkan beberapa alat penimbang yang digunakan dalam sukan.

Skala nama (skala nominal).

Ini adalah yang paling mudah daripada semua skala. Di dalamnya, nombor memainkan peranan sebagai label dan berfungsi untuk mengesan dan membezakan objek yang dikaji (contohnya, penomboran pemain pasukan bola sepak). Nombor yang membentuk skala nama dibenarkan untuk ditukar oleh meta. Tiada hubungan yang lebih kurang dalam skala ini, jadi sesetengah orang berpendapat bahawa penggunaan skala nama tidak boleh dianggap sebagai ukuran. Apabila menggunakan skala, nama, hanya beberapa operasi matematik boleh dijalankan. Sebagai contoh, nombornya tidak boleh ditambah atau ditolak, tetapi anda boleh mengira berapa kali (berapa kerap) nombor tertentu berlaku.

Skala pesanan.

Terdapat sukan di mana keputusan seorang atlet hanya ditentukan oleh tempat yang diduduki dalam pertandingan (contohnya, seni mempertahankan diri). Selepas pertandingan sebegini, jelaslah atlet mana yang lebih kuat dan siapa lebih lemah. Tetapi berapa banyak lebih kuat atau lebih lemah, adalah mustahil untuk mengatakan. Jika tiga atlet masing-masing mendapat tempat pertama, kedua dan ketiga, maka apakah perbezaan dalam semangat kesukanan mereka masih tidak jelas: atlet kedua mungkin hampir sama dengan yang pertama, atau mungkin lebih lemah daripadanya dan hampir sama dengan yang ketiga. Tempat yang diduduki dalam skala susunan dipanggil pangkat, dan skala itu sendiri dipanggil pangkat atau bukan metrik. Dalam skala sedemikian, nombor konstituennya disusun mengikut pangkat (iaitu, tempat yang diambil), tetapi selang antara mereka tidak boleh diukur dengan tepat. Tidak seperti skala nama, skala susunan membenarkan bukan sahaja untuk mewujudkan fakta kesamaan atau ketidaksamaan objek yang diukur, tetapi juga untuk menentukan sifat ketidaksamaan dalam bentuk pertimbangan: "lebih - kurang", "lebih baik - lebih teruk. ", dan lain-lain.

Dengan bantuan skala pesanan, adalah mungkin untuk mengukur kualiti yang tidak mempunyai ketat ukuran kuantitatif, penunjuk. Skala ini digunakan secara meluas terutamanya dalam kemanusiaan: pedagogi, psikologi, sosiologi.

Lebih banyak operasi matematik boleh digunakan pada pangkat skala tertib berbanding nombor skala denominasi.

Skala selang.

Ini adalah skala di mana nombor bukan sahaja disusun mengikut pangkat, tetapi juga dipisahkan oleh selang tertentu. Ciri yang membezakannya daripada skala nisbah yang diterangkan di bawah ialah titik sifar dipilih secara sewenang-wenangnya. Contohnya ialah masa kalendar (permulaan kronologi pada kalendar yang berbeza telah ditubuhkan atas sebab rawak), sudut artikular (sudut dalam sendi siku pada lanjutan penuh lengan bawah boleh diambil sama dengan sama ada sifar atau 180 °), suhu, tenaga keupayaan beban terangkat, potensi medan elektrik, dsb.

Hasil pengukuran pada skala selang boleh diproses oleh semua kaedah matematik kecuali untuk mengira nisbah. Skala selang ini memberikan jawapan kepada soalan: "berapa banyak lagi", tetapi tidak membenarkan kami untuk menegaskan bahawa satu nilai kuantiti yang diukur adalah berkali-kali lebih besar atau kurang daripada yang lain. Sebagai contoh, jika suhu telah meningkat dari 10 hingga 20 C, maka tidak boleh dikatakan bahawa ia telah menjadi dua kali lebih panas.

Skala perhubungan.

Skala ini berbeza daripada skala selang hanya kerana ia mentakrifkan kedudukan titik sifar dengan ketat. Disebabkan ini, skala nisbah tidak mengenakan sebarang sekatan ke atas radas matematik, digunakan untuk memproses hasil pemerhatian.

Dalam sukan, skala nisbah mengukur jarak, kekuatan, kelajuan dan berpuluh-puluh pembolehubah lain. Pada skala nisbah, kuantiti tersebut juga diukur yang dibentuk sebagai perbezaan nombor yang dikira pada skala selang. Jadi, masa kalendar dikira pada skala selang, dan selang masa - pada skala nisbah. Apabila menggunakan skala nisbah (dan hanya dalam kes ini!) pengukuran sebarang kuantiti dikurangkan kepada penentuan percubaan nisbah kuantiti ini kepada kuantiti lain yang serupa, diambil sebagai satu unit. Dengan mengukur panjang lompatan, kita mengetahui berapa kali panjang ini lebih besar daripada panjang badan lain, diambil sebagai unit panjang (pembaris meter dalam kes tertentu); menimbang barbell, kami menentukan nisbah jisimnya kepada jisim badan lain - berat "kilogram" tunggal, dsb. Jika kita menghadkan diri kita hanya kepada penggunaan skala nisbah, maka kita boleh memberikan takrifan pengukuran yang lain (lebih sempit, lebih spesifik): untuk mengukur kuantiti bermaksud mencari secara eksperimen kaitannya dengan unit ukuran yang sepadan.

Unit pengukuran.

Agar keputusan ukuran yang berbeza dibandingkan antara satu sama lain, mereka mesti dinyatakan dalam unit yang sama. Pada tahun 1960, pada Persidangan Agung Antarabangsa mengenai Timbang dan Sukat, ia telah diterima pakai Sistem antarabangsa unit, disingkatkan sebagai SI (dari huruf awal perkataan System International). Pada masa ini, aplikasi pilihan sistem ini ditubuhkan dalam semua bidang sains dan teknologi, dalam ekonomi negara begitu juga dalam pengajaran.

SI pada masa ini merangkumi tujuh unit asas yang bebas antara satu sama lain (lihat Jadual 2.1.)

Jadual 1.1.

Daripada unit asas ini, unit kuantiti fizik lain diterbitkan sebagai terbitan. Unit terbitan ditentukan berdasarkan formula yang berkaitan antara satu sama lain kuantiti fizik. Sebagai contoh, unit panjang (meter) dan unit masa (saat) adalah unit asas, manakala unit kelajuan (meter sesaat) adalah terbitan.

Sebagai tambahan kepada yang utama, dua unit tambahan dibezakan dalam SI: radian adalah unit sudut rata dan steradian adalah unit sudut pepejal (sudut dalam ruang).

Ketepatan ukuran.

Tiada pengukuran boleh dibuat dengan tepat. Hasil pengukuran tidak dapat dielakkan mengandungi ralat, yang nilainya lebih kecil, lebih tepat kaedah pengukuran dan alat pengukur. Sebagai contoh, menggunakan pembaris konvensional dengan bahagian milimeter, adalah mustahil untuk mengukur panjang dengan ketepatan 0.01 mm.

Ralat asas dan tambahan.

Ralat intrinsik ialah ralat dalam kaedah pengukuran atau alat pengukur yang berlaku dalam keadaan biasa permohonan mereka.

Ralat tambahan ialah ralat peranti pengukur yang disebabkan oleh sisihan keadaan operasinya daripada biasa. Adalah jelas bahawa peranti yang direka untuk beroperasi pada suhu bilik tidak akan memberikan bacaan yang tepat jika ia digunakan pada musim panas di stadium di bawah terik matahari atau pada musim sejuk dalam keadaan sejuk. Ralat pengukuran boleh berlaku apabila voltan sesalur kuasa atau pek bateri berada di bawah normal atau tidak konsisten dalam magnitud.

Kesilapan mutlak dan relatif.

Nilai E \u003d A - Ao, sama dengan perbezaan antara bacaan alat pengukur (A) dan nilai sebenar kuantiti yang diukur (Ao), dipanggil ralat pengukuran mutlak. Ia diukur dalam unit yang sama dengan ukuran itu sendiri.

Dalam amalan, selalunya mudah untuk digunakan bukan mutlak, tetapi ralat relatif. Ralat pengukuran relatif adalah dua jenis - nyata dan berkurangan. Ralat relatif sebenar ialah nisbah kesilapan mutlak kepada nilai sebenar kuantiti yang diukur:

A D =---------* 100%

Ralat relatif yang diberikan ialah nisbah ralat mutlak kepada nilai maksimum yang mungkin bagi kuantiti yang diukur:

Ap =----------* 100%

Ralat sistematik dan rawak.

Ralat sistematik dipanggil, nilai yang tidak berubah dari pengukuran ke pengukuran. Disebabkan oleh ciri ini, ralat sistematik selalunya boleh diramalkan lebih awal atau, dalam kes yang melampau, dikesan dan dihapuskan pada akhir proses pengukuran.

Cara untuk menghapuskan ralat sistematik bergantung terutamanya pada sifatnya. Ralat pengukuran sistematik boleh dibahagikan kepada tiga kumpulan:

kesilapan asal usul yang diketahui dan nilai yang diketahui;

ralat yang diketahui asalnya tetapi tidak diketahui magnitudnya;

ralat yang tidak diketahui asalnya dan magnitud yang tidak diketahui. Yang paling tidak berbahaya adalah kesilapan kumpulan pertama. Mereka mudah dikeluarkan

dengan memperkenalkan pembetulan yang sesuai kepada hasil pengukuran.

Kumpulan kedua termasuk, pertama sekali, ralat yang berkaitan dengan ketidaksempurnaan kaedah pengukuran dan peralatan mengukur. Sebagai contoh, kesilapan dalam mengukur prestasi fizikal menggunakan topeng untuk mengambil udara yang dihembus: topeng menyukarkan pernafasan, dan atlet secara semula jadi menunjukkan prestasi fizikal, yang dipandang remeh berbanding dengan yang sebenar, diukur tanpa topeng. Magnitud kesilapan ini tidak boleh diramalkan terlebih dahulu: ia bergantung kepada kebolehan individu atlet dan keadaan kesihatannya pada masa kajian.

Satu lagi contoh ralat sistematik kumpulan ini ialah ralat yang berkaitan dengan ketidaksempurnaan peralatan, apabila peranti pengukur sengaja melebihkan atau meremehkan nilai sebenar kuantiti yang diukur, tetapi magnitud ralat tidak diketahui.

Kesilapan kumpulan ketiga adalah yang paling berbahaya, penampilan mereka dikaitkan dengan kedua-dua ketidaksempurnaan kaedah pengukuran dan ciri-ciri objek pengukuran - atlet.

Ralat rawak timbul di bawah pengaruh pelbagai faktor yang tidak dapat diramalkan terlebih dahulu atau diambil kira dengan tepat. Ralat rawak tidak boleh dihapuskan pada dasarnya. Walau bagaimanapun, menggunakan kaedah statistik matematik, adalah mungkin untuk menganggarkan magnitud ralat rawak dan mengambil kiranya apabila mentafsir keputusan pengukuran. Tanpa pemprosesan statistik, keputusan pengukuran tidak boleh dianggap boleh dipercayai.