En Item Response Model, der sikrer validitet, objektivitet og reliabilitet i en test.
For at opnå statistisk sikkerhed for, at en test kan skelne mellem mere og mindre dygtige personer på det område, der testes, skal testen passe til en såkaldt Item Respons Model (IRT) og reliabiliteten af skalaen skal være høj. En vigtig pointe i IRT er at adskille egenskaber ved opgaver (items) og egenskaber ved personerne. Der tales om to forskellige egenskaber ved items, deres sværhedsgrad og deres evne til at diskriminere (skelne/sortere/gruppere) mellem mere og mindre dygtige personer.
Den Item Respons Model, der stiller de stærkeste kvalitetskrav til egenskaberne i en test, er Rasch-modellen, fordi denne – i modsætning til andre IRT modellen – garanterer, at antallet af korrekt besvarede opgaver er et fyldestgørende udtryk for personens færdigheder.
Rasch-modellen beskriver sandsynligheden for, at en person med en bestemt dygtighed kan svare korrekt på en given opgave. Sandsynligheden for, at en person svarer rigtigt på en opgave afhænger af forskellen mellem personens dygtighed og opgavens sværhedsgrad. Rasch-modellen sikrer derfor, at to personer, der er lige dygtige har samme sandsynlighed for at besvare en given opgave i en test korrekt. Målet for sværhedsgraden er i øvrigt fastlagt således, at hvis en person får en opgave, der er nøjagtig lige så svær, som personen er dygtig, er sandsynligheden 50% for, at personen besvarer opgaven korrekt.
Hvis opgaverne i en test opfylder Rasch-modellens krav til opgaver, følger det, at en persons score i en test dermed kan anvendes som et direkte udtryk for, om en person er dygtigere end en anden person. Testens score kan således anvendes til at sortere personerne på baggrund af deres faktiske dygtighed inden for testens område. Ud over dette kan en analyse af opgavernes sværhedsgrader for personer med en given score sammenholdt med en fagligt funderet analyse af indholdet af opgaverne føre til, at den samlede testscore kan anvendes som grundlag for, om personen er dygtig nok til fx at opnå et bedømmelse (fx bestået) inden for testens faglige område.
Når en test undersøges for, om den passer til en Rasch-model, undersøges opgaverne for, om de samlet set opfylder følgende krav:
- Unidimensionalitet: Testen må kun måle en færdighed. Hvis testen måler flere færdigheder, vil den ikke kunne opfylde en Rasch-model.
- Lokal uafhængighed: Svaret på en opg. må kun afhænge af, hvor dygtig en person er – og ikke af, hvad der er svaret på andre opgaver.
- Ingen Differentiel item-funktion: Svarene på en opgave må kun afhænge af personens dygtighed – ikke af fx køn, bopæl mv.
- Statistisk sufficiens/Sufficient data reduktion: Personens dygtighed skal kunne aflæses direkte af personens score i testen.
- Homogenite: Opgavernes rækkefølge mht. sværhedsgrad skal være den samme for alle uanset dygtighed.
- Monotonicitet: Der skal være er en direkte sammenhæng mellem personens dygtighed inden for denne målte færdighed og sandsynligheden for at en opgave besvares korrekt. Dvs. at jo sværere en opgave er, jo dygtigere skal personen være for at kunne svare rigtigt.
Reliabiliteten af testen (dvs testens evne til at nå det samme resultat ved gentagne målinger) iler høj, hvis usikkerheden på målingen er væsentlig mindre end spredningen på personernes dygtighed.
Det kan være meget svært at konstruere opgaver til en test, der skal opfylde en Rasch-model. Derfor kan det anbefales, at man udvikler mange flere opgaver, end der rent faktisk skal anvendes, idet Rasch-modellen vil forkaste alle opgaver, der ikke opfylder kravene.
En test, der opfylder en Rasch-model, skal være afprøvet på et udpluk af målgruppen. I modsætning til andre IRT modeller stiller Rasch analysen ingen krav om personerne udvælges på en bestemt måde. Det er f.eks. ikke et krav at udvalget er repræsentativt. Det vil tværtimod være en fordel, hvis udvalget af personer over-repræsenterer både svage og stærke personer, for at kunne sikre at testen fungerer på samme måde for alle personer. Jo flere personers testresultater, der indgår i afprøvningen af tilpasningen til Rasch-modellen, jo bedre er mulighederne for at afprøve om modellen passer. Det anbefales, at der indgår besvarelser fra mindst 250 testpersoner, hvis man vil have en rimelig garanti for at afprøvningen af opgaverne afslører, at der er problemer med tilpasningen til modellen.
eVidenCenter anvender Rasch-modellen til kvalitetssikring af digitale test.
Michael Lund-Larsen,
Centerchef
Direkte: +45 2044 2040
Udviklingsafdelingen Det Nationale Videncenter for e-læring
Kilder:
Item Response Theory, IRT, Psykologisk Selskab for Forskningsmetodologi, http://forskningsmetode.dk/item-response-theory-irt/
Om udvikling og afprøvning af pædagogiske test, Svend Kreiner, Artikel i Test i Folkeskolen, Hans Reitzels Forlag, 2009