God eksamensutvikling

Gjennom arbeidet med nasjonale deleksamener har NOKUT avdekket en rekke faktorer som ligger til grunn for god eksamensutvikling.

NOKUT ønsker å bidra til større kunnskap om hvordan man kan sikre at studentene får en god vurdering. Hva som står på studentenes vitnemål har stor betydning for videre arbeid/studier. Vi ønsker også å løfte frem hvordan vurdering selv kan være et kvalitetsfremmende verktøy for undervisningen.

Hva er en rettferdig eksamen?

Når vi spør hva en rettferdig eksamen er, får vi typisk svar som at det er en avsluttende prøve hvor de omkringliggende forholdene er de samme for alle studentene, hvor muligheten til juks er minimalisert og at oppgavene ikke favoriserer enkelte studentgrupper, for eksempel på bakgrunn av kjønn, språk, kulturell tilhørighet eller annet. Alt dette er riktig, og en eksamensutvikler må ta hensyn til disse aspektene.

For at en eksamen skal være rettferdig, er det imidlertid avgjørende at den er utformet slik at dyktige studenter oppnår bedre resultater og karakterer enn mindre dyktige studenter. Dyktige studenter må få vist dyktigheten sin i emnet, og oppgavene må i mindre grad belønne faglig svakere studenter. Hvis eksamensoppgavene ikke evner å skille tydelig mellom studenter med høy og lav dyktighet, er ikke eksamen et gyldig og pålitelig mål på oppnådd kompetanse.
Vurderingsuttrykk

På denne siden snakker vi om poeng. Det er naturligvis ikke den eneste muligheten. Men man vil uansett forholde seg til en skala, enten det er poengnivåer, ulike verbale uttrykk som f.eks. svak-middels-god (som betyr det samme som 0–3 «poeng»), karakterskalaen F–A (0–5 «poeng»), godkjent/ikke godkjent (0–1 «poeng») eller hva som helst ellers. Både enkeltoppgaver, eventuelle dimensjoner ved besvarelsen og besvarelsen som helhet vurderes etter skalaer. Bruken av «poeng» på denne siden er dermed direkte overførbart til alle vurderingsuttrykk.
Hvor mange poeng bør vi gi?

Mange har nok en idé om at en antatt vanskelig oppgave skal gi stor uttelling i form av mange poeng. Tanken bak denne praksisen er at dyktige studenter skal få større uttelling enn mindre dyktige studenter, og at en dermed gir flere poeng for gode svar på antatt vanskelige oppgaver enn det antallet poeng en gir for gode svar på en antatt lett oppgave. Det maksimale antallet poeng per oppgave skal imidlertid henge sammen med antall tydelig atskilte faglige dyktighetsnivåer vi kan skille mellom på en pålitelig måte. Hvis det ikke slik, vil sensorene kunne legge forskjellige kriterier til grunn for poengsettingen, og sensuren blir urettferdig.

Sensorveiledningens viktigste oppgave er dermed å gi faglige begrunnelser for hvert poeng som skal deles ut. Sensorveiledningen skal for hver oppgave beskrive tydelige vurderingskriterier for gode svar som fortjener full kreditt, for middels gode svar som fortjener delvis kreditt og tydelig skille disse fra svake svar som ikke fortjener kreditt. Det er dermed ingenting i veien for å dele ut opptil 2 poeng på en lett oppgave og opptil 1 poeng på en vanskelig oppgave. En faglig svak student oppnår da typisk 1 poeng på den lette oppgaven, men ingen poeng på den vanskelige oppgaven. En gjennomsnittlig dyktig student vil typisk oppnå 2 poeng på den lette oppgaven, men ingen poeng på den vanskelige oppgaven. En dyktig student oppnår derimot 3 poeng ved å krediteres "full kreditt" på begge oppgavene. Vi snakker da om at ulike poeng har ulik vanskegrad, og at poengnivå 1 på en vanskelig oppgave har høyere vanskegrad enn poengnivå 2 på en lett oppgave. Vi oppnår imidlertid målet vårt om at dyktige studenter skal oppnå høye poengsummer, og vi kan begrunne hvert poeng faglig.

Den utbredte ideen om at et eksamenssett skal gi opptil 100 poeng, vil "alltid" representere en uheldig praksis. En vil da i praksis dele ut flere poeng per oppgave enn det finnes tydelig atskilte dyktighetsnivåer i svarene på oppgaven, og en kan da spørre seg om hva de ulike poengene representerer faglig sett. Hvis vi ikke kan definere tydelige vurderingskriterier – altså angi entydige faglige begrunnelser for hvert poeng, vil sensorene verken rette likt eller anvende de ulike poengene konsistent fra besvarelse til besvarelse.
Hvor skal vi sette grensene for uttelling?

På flervalgsoppgaver er det typisk ett riktig svar, og studenter som oppfyller vurderingskriteriet – dvs. svarer riktig – krediteres 1 poeng. På åpne oppgaver der studentene selv skriver et svar, er det sensorveiledningens vurderingskriterier som definerer om et svar skal krediteres. Dersom et svar oppfyller vurderingskriteriet for full kreditt, skal studenten ha full uttelling. Dette gjelder selv om andre studenter gir svar av enda høyere kvalitet. Dersom et svar viser at studenten har noe faglig kunnskap, men at vurderingskriteriet for delvis kreditt (1 poeng) likevel ikke er oppfylt, skal studenten ikke krediteres.

Enkelte sensorer ynder imidlertid å gi uttelling i det kandidaten viser noe faglig kunnskap, selv om svaret ikke oppfyller vurderingskriteriet for delvis kreditt (1 poeng). I slike tilfeller vil ulike sensorer kreditere ulike aspekter ved svarene, vurderingen får et tilsnitt av tilfeldighet da krediteringen er sensoravhengig, og validiteten til vurderingen synker betraktelig. Et kjennetegn på vurdering med lav validitet er at enkelte sensorer har tatt i bruk halve poeng. Halve poeng signaliserer avvik fra skåringsmodellens hele poeng. Dersom det viser seg at det faktisk eksisterer et tydelig atskilt dyktighetsnivå mellom vurderingskriteriene for 1 poeng (delvis kreditt) og 2 poeng (full kreditt), som alle sensorene kan kreditere reliabelt, er det sensorveiledningen som har en svakhet. I slike tilfeller må sensorveiledningen revideres slik at den beskriver vurderingskriterier for 1 poeng (delvis kreditt), 2 poeng (delvis kreditt for det innførte vurderingskriteriet i den reviderte sensorveiledningen) og 3 poeng (full kreditt), slik at samtlige sensorer forholder seg til disse dyktighetsnivåene.
Når vi tenker på at en student skal ha oppnådd læringsutbyttet for emnet, er det å gjengi halvveis kunnskap eller ferdighet ikke tilstrekkelig for å få uttelling. Videre bør helt korrekt angitt allmennkunnskap ikke være tilstrekkelig for å få uttelling på et spesialisert studium.

Det handler om to forskjellige måter å se studentens akademiske kompetanse på. Den ene tar utgangspunkt i at null-nivået er ingen kunnskap, og at dermed noe kunnskap må få noe uttelling, mens den andre tar utgangspunkt i at null-nivået er den forventede inngangskompetansen, og at nivået som fortjener uttelling må ligge høyere enn dette. De som lager eksamen må tenke over om allmennkunnskap, eller kompetanse som ligger på vgo-nivå, skal fortjene uttelling på den aktuelle oppgaven, i en eksamen i høyere utdanning.
Formulering av oppgaver

Eksamensoppgaver og sensorveiledningens vurderingskriterier må ta utgangspunkt i læringsutbyttebeskrivelsene. Når vi formulerer en eksamensoppgave, må vi tenke gjennom hvordan besvarelsene av oppgaven skal vurderes. Er oppgaven utvetydig formulert? Er det bare ett riktig svar som kan gi uttelling? Hvis kandidatene kan gi mer eller mindre gode svar på oppgaven, hva slags svar skal gi hvilken uttelling? Hvis sensorveiledningen bare beskriver vurderingskriteriene for et fullgodt svar, er det vanskelig for sensorene å være intuitivt enige om hvor grensen går for delvis kreditt.

Det er viktig å tenke igjennom om oppgaven spør om to ting. I slike tilfeller vil typisk 1 poeng bety riktig svar på enten det ene eller det andre av oppgavens spørsmål. Problemet blir enda større om de to deloppgavene har ulik vanskegrad. Poeng 1 vil da deles ut til studenter med svært ulik faglig dyktighet.

Oppgaver som spør om flere ting gir dermed svært usikker informasjon tilbake til underviserne om hva studentene kan og ikke kan. I de aller fleste tilfellene vil det være bedre å dele opp eller redusere slike oppgaver til bare å spørre om en ting.

Hvis alle flervalgsoppgavene på en eksamen er identiske eller veldig like, vil vi i prinsippet stratifisere studentene i to grupper – de som får full skår og de som ikke oppnår noen poeng. Dette er en lite effektiv eksamen, for oppgavene er "statistisk avhengige" og tester bare ett av mange læringsutbytter. På tilsvarende måte bør vi passe på at åpne oppgaver ikke tester samme kunnskap flere ganger. De ulike oppgavene i et eksamenssett bør altså "hente ut" ulik informasjon om studentenes kompetanse. Bruk av oppgaveenheter der flere oppgaver er knyttet til ett tema eller ett stimulimateriale (en tekst eller figur) kan øke sannsynligheten for at noen oppgaver tester samme type kunnskap.
Mer om oppgaveformulering og poengsetting
Kvalitetssikring av eksamensoppgaver: eksempler fra sykepleierutdanning (pdf)

Nasjonal deleksamen i anatomi, fysiologi og biokjemi desember 2017: I hvilken grad sensorenes poengsetting kan begrunnes og forsvares psykometrisk (pdf)
Kontaktinformasjon

Kontaktpersoner i NOKUT

Karl Johan Skeidsvoll
Seniorrådgiver
Telefon: 21 02 18 22
E-post: KarlJohan.Skeidsvoll@nokut.no

Helen Bråten
Seniorrådgiver
Telefon: 21 02 18 27
E-post: Helen.Braten@nokut.no

God eksamensutvikling

Kontaktpersoner i NOKUT