Vurdering og eksamen

På denne siden presenterer NOKUT kunnskap om vurdering.

Vurdering inngår i ethvert studieprogram. Utdanningsinstitusjonen vurderer hvorvidt studenten har oppnådd det intenderte læringsutbyttet og eventuelt hvor god kompetanse hun eller han viser. Vurdering er både en kontrollmekanisme på oppnådd læring, dvs. summativ vurdering i form av en eksamen eller også et verktøy for bedre læring. Vurderingsordningen vil alltid ha betydning for læringsprosessen, enten den er rent summativ eller også formativ.

NOKUTs arbeid med kvalitet i utdanningen kommer inn på vurdering i en rekke sammenhenger. NOKUT forvalter studietilsynsforskriften, som stiller krav til vurderingsordningene. I tilsyns- og akkrediteringsprosessene våre kontrollerer vi om kravene er oppfylt, og i ulike evalueringer, samt i SFU-ordningen vi inntil nylig forvaltet, kan vurdering være et tema. I Studiebarometeret spørres studentene om hvordan de oppfatter vurderingene. I nasjonale deleksamener forvalter NOKUT ansvaret for felles eksamener i utvalgte emner. Ordningen skal blant annet gi informasjon om studentenes kunnskapsnivå og gi fagmiljøene mulighet til sammenligning seg imellom. Vi bruker erfaringene fra dette arbeidet til å fremme prinsipper for god eksamenskvalitet.

Regelverk og grunnlagsdokumenter

Vurdering (eksamen og sensur) er regulert i universitets- og høyskoleloven §3-9. I tredje ledd angis grunnleggende bestemmelser om rettferdig og faglig etterrettelig vurdering: "Universiteter og høyskoler skal sørge for at kandidatenes kunnskaper og ferdigheter blir prøvet og vurdert på en upartisk og faglig betryggende måte." Rettferdige og faglig betryggende vurderingsordninger er også avgjørende for opprettholdelsen av det studiets faglige nivå og tilliten til kvaliteten i studiet: "Vurderingen skal også sikre det faglige nivå ved vedkommende studium." Dette skal også sikres gjennom eksterne evalueringer av ordningene: "Det skal være ekstern evaluering av vurderingen eller vurderingsordningene." Ekstern evaluering løses ofte ved bruken av tilsynssensor/programsensor.

I sjette ledd reguleres hvilke karakterskalaer som kan benyttes ved norske universiteter og høyskoler. Man kan velge mellom en to-trinns eller seks-trinns skala: "Vurderingsuttrykket ved eksamen, prøve, bedømmelse av oppgave eller annen vurdering skal være bestått/ikke bestått eller en gradert skala med fem trinn fra A til E for bestått og F for ikke bestått."

Selve begrepet "vurdering" blir definert i nasjonalt kvalifikasjonsrammeverk, vedlegg 2: "Vurdering av hvorvidt og i hvilken grad en student har nådd de læringsresultatene som er satt som mål for emnet eller studieprogrammet." Vurdering er med andre ord først og fremst relatert til om læringsmålene er nådd eller ikke – om studiet er bestått eller ikke. A–E-skalaen vil dermed være en eventuell presisering av kompetanse ut over bestått.

Grunnlaget for vurderingsuttrykket, eller karaktersettingen, er uttrykt i brev fra departementet av 10. mai 2004 og fulgt opp i stortingsmeldingen Kultur for kvalitet i høyere utdanning (Mld.st. 16 (2016-2017)), hvor det eksplisitt fremgår at vurderingen skal være kriteriebasert, og ikke relativ: "Sensor skal vurdere en prestasjon basert på fastsatte kriterier og ikke det relative resultatet innenfor en gruppe eller et kull" (3.5). Stortingsmeldingen poengterer at man skal ta i bruk forskjellige former for vurdering som sporer bedre læring: "Alle studenter skal møte aktiviserende og varierte lærings- og vurderingsformer, der digitale muligheter utnyttes" (1.5).

I studietilsynsforskriftens § 2-2, femte ledd, vektlegges denne sammenhengen mellom den valgte vurderingsformen og det foreskrevne læringsutbyttet for studiet. Vurderingsordningen må ha en form som evner å påvise de kunnskaper og ferdigheter som studietilbudet skal sikre. Formuleringen legger også opp til å se de tre elementene vurdering, læringsaktiviteter og læringsutbytte i sammenheng. Det er dette man kaller samstemt læring (constructive alignment): "Undervisnings-, lærings- og vurderingsformer skal være tilpasset læringsutbyttet for studietilbudet. Det skal legges til rette for at studenten kan ta en aktiv rolle i læringsprosessen." I merknaden til forskriften tas tråden opp fra stortingsmeldingen angående digitalisering: "Det forutsettes at undervisnings-, lærings- og vurderingsformer er tilpasset et digitalisert samfunn."

I dokumentet Kvalitetsområder for studieprogram fremmer NOKUT at vurderingsformene bør ha både formative og summative funksjoner, alt relatert til læringsutbyttet: "For å stimulere til at studenten oppnår forventet læringsutbytte, vil et velfungerende studieprogram ha undervisnings- og lærings- og vurderingsformer (formative) som er de beste for å oppnå det ønskede læringsutbyttet, og summative vurderingsformer som måler om studenten har oppnådd det fastsatte læringsutbyttet" (4).
Kvalitetssikring (tilsynsrapporter)

Utdanningsinstitusjonene er pålagt å drive et systematisk kvalitetsarbeid både på overordnet og på studieprogramnivå. I studietilsynsforskriften står det at kvalitetsarbeidet skal "dekke alle vesentlige områder av betydning for kvaliteten på studentenes læringsutbytte", "systematisk innhente informasjon fra relevante kilder" og at "kunnskap fra kvalitetsarbeidet skal brukes til å utvikle kvaliteten i studietilbudene".

Vurdering er et vesentlig område av betydning for kvaliteten på studentenes læringsutbytte. Vi ser av en gjennomgang av NOKUTs åtte rapporter etter tilsyn med institusjonenes kvalitetsarbeid 2018–2019 at det i stor grad er beskrevet i kvalitetssikringssystemet at man skal innhente rapporter fra eksterne sensorer, eventuelt benytte tilsynssensorer etter en definert syklus. Dette svarer også på universitets- og høyskolelovens krav om ekstern evaluering av vurderingsordninger. Derimot påpeker de sakkyndige at det i enkelte tilfeller er uklart hvordan dette er fulgt opp systematisk. Det synes som om evalueringen fra de eksterne sensorene først og fremst dreier seg om vurderingsordningens relevans for læringsutbyttebeskrivelsene.
Varierte vurderingsformer

I Mld.st. 16 (2016–2017) er det lagt føringer for at studentene skal møte varierte vurderingsformer, og det er også anbefalt i NOKUTs Kvalitetsområder for studieprogram, dette for å stimulere til dybdelæring og at studentene oppnår forventet læringsutbytte. Det er ikke et krav i regelverket at studentene skal møte varierte vurderingsformer. Regelverkets krav er at vurderingsformen skal være faglig betryggende (universitets- og høyskoleloven), og at den skal være egnet for å påvise læringsutbyttet for studiet (studietilsynsforskriften).

Vi har gått gjennom rapporter fra sakkyndige komiteer for akkreditering av studietilbud på bachelor- og mastergradsnivå 2017–2019. I NOKUTs akkrediteringsprosesser er det i hovedsak studietilsynsforskriftens krav om relasjonen til læringsutbyttebeskrivelsene som skal tilfredsstilles. Rapportene etter akkrediterte studietilbud teller 11 på bachelorgradsnivå og 21 på mastergradsnivå. Det tegner seg et bilde av at utdanningene legger tydelig vekt på å bruke et bredt tilfang av ulike vurderingsformer, både formative for læring og summative for presis sluttvurdering. En vektlegging av variasjon er ellers gjennomgående i sakkyndiges kommentarer i både akkrediterings- og tilsynsrapporter, selv om dette ikke er et eksplisitt krav som skal tilfredsstilles. Vurderingsformene som angis i akkrerditeringssøknadene, blir i de fleste tilfeller ansett godt egnet for å påvise de forskjellige læringsutbyttene. I noen rapporter etterspør eller tilråder komiteen bruk av alternative vurderingsformer. Det kan være stedlig eksamen, i de tilfeller studieprogrammet legger opp til ensidig bruk av hjemmeeksamen (for å gjøre det uomtvistelig at det er studenten selv som gjennomfører eksamen), eller motsatt, mer bruk av hjemmeeksamen eller gruppeeksamen for bedre å fange inn bestemte sider ved læringsutbyttet. Et fåtall utdanninger på bachelornivå legger opp til noe ensidig bruk av tradisjonelle skoleeksamener, og dette er påpekt av de sakkyndige med råd om mer varierte vurderingsordninger. I den grad sakkyndigrapporter fra de tre siste år kan gi et dekkende inntrykk, synes ikke dette å være utbredt. Bruk av "tradisjonelle" vurderingsformer blir ikke kritisert i seg selv. Når sakkyndige gir råd, er det om å bruke vurdering for å stimulere eller teste sentrale ferdigheter hvor tradisjonelle eksamensformer ikke er relevante. De sakkyndige anerkjenner at det ofte er mangel på tilstrekkelige ressurser som gjør at bruken av vurderingsformer ikke blir optimal. Ellers reflekterer rådene føringene om variasjon. Vurdering av bachelor- og mastergradsoppgaver er i liten grad omtalt.
Vurderingsformer tilpasset læringsutbyttet

Akkrediteringssøknader kan gi et noe skjevt bilde av tilstanden, siden dette dreier seg om studieprogrammer som ikke er satt i gang. I noen av NOKUTs evalueringer av eksisterende studieprogrammer diskuteres også vurderingsordninger. I tråd med regelverk og andre grunnlagsdokumenter er vurderingsordninger sett i sammenheng med undervisningsformer. Samtidig gjør dette at vurderingsformer isolert sjelden blir kommentert. I prosjektet KOMBEVAL – kombinerte fagevalueringer er vurderingsformer et eget konkret evalueringspunkt, under "teaching and assessment methods". Evalueringen ser på forskning og undervisning i samfunnsøkonomi, sosiologi og statsvitenskap, og bildet preges i stor grad av sluttvurderinger i form av tradisjonelle skoleeksamener. Det er også vanlig med arbeidskrav i form av innleveringstekster i forkant. Kun én institusjon får gjentatt ros for å være nyskapende i valg av undervisnings- og vurderingsformer.

Under prosjektet EUROMA – Benchmarking of master programmes across European countries, med fagområdene økonomi og molekylærbiologi, anerkjente sakkyndigkomiteene at mastergradsprosjekter var en godt egnet lærings- og vurderingsform for å lære hvordan man arbeider vitenskapelig. Begge komiteene fremholdt at mastergradsprosjekter kan organiseres på forskjellig vis, og at det er fordeler og ulemper forbundet med valg av dimensjon og design. I molekylærbiologi-programmene nevner de sakkyndige generelt at vurderingen av mastergradsprosjektet også bør ha for øye hvordan studenten har prestert i lab samt andre overførbare ferdigheter som ikke kan etterprøves i den skrevne teksten. I økonomi-programmene poengterer de sakkyndige noe lignende. De nevner at den utstrakte bruken av skoleeksamener ikke tester disse overførbare ferdighetene, og at man dermed blir henvist til masterprosjektet for å dekke dette. Et problem da er at kandidatene ikke kan nyttiggjøre seg formativ tilbakemelding (feedback) fra vurderingen av masteroppgaven.

I NOKUTs rapporter etter tilsyn med studietilbud ser vi de samme tendensene som i akkrediteringsrapportene. I tilsynet med bachelorgradsutdanninger i barnevern, sosialt arbeid og vernepleie (2015–17) betoner de sakkyndige at læringsutbyttebeskrivelsene skal være førende for valg av studiets oppbygning, og med det vurderingsformer. De observerte samtidig at læringsutbyttebeskrivelsene i flere studieprogrammer var mangelfulle. De fleste av studieprogrammene berømmes for å ha en gjennomtenkt tilpasning av vurderingsformer til læringsutbyttene og for å benytte varierte vurderingsformer. Noen få blir rådet til å søke større variasjon i de individuelle eksamensformene de har i bruk, selv om disse kommer i tillegg til øvrige, som gruppeoppgaver, mappevurdering, muntlig og annet. Sakkyndige bifaller gjennomgående ulike obligatoriske arbeidskrav i løpet av studiet som et pedagogisk virkemiddel, men også som et komplement eller en forberedelse til sluttvurderingene. Vurdering er også koblet til ferdighetstrening enkelte steder, uten at det alltid går klart frem hvordan vurderingen faktisk gjennomføres. I tilsynet av bachelorutdanningene innen ingeniørfag bygg (2018) nevner de sakkyndige et spekter av vurderingsformer, som gjerne inkorporerer arbeidskrav, men at disse i stor grad er skriftlige. De peker på viktigheten av å kunne presentere og diskutere faget muntlig og etterlyser derav mer bruk av muntlige vurderingsformer. De nevner også at antallet kandidater som samarbeider om en gruppeeksamen ikke bør være opptil seks, som en institusjon tillater.
Vurdering av praksis

I prosjektet Operasjon praksis avdekket vi flere utfordringer rundt vurdering av praksis. Det er i mange tilfeller uklart hvilket ansvarsforhold som råder mellom den som har den formelle vurderingsmyndigheten, det vil si representanter fra utdanningsinstitusjonen, og den som ofte har det faktiske grunnlaget for vurdering, det vil si representanter fra praksisfeltet. Videre så vi at det ikke er gitt at praksisveileder og faglærer er samstemte i hva kriteriene for vurdering skal være, eller hvordan læringsutbyttebeskrivelsene for praksisperioden skal forstås. Der hvor kommunikasjonen er god mellom alle tre parter – student, faglærer og praksisveileder – både før og under praksisoppholdet, skapes det en tryggere ramme for vurdering. For å gjøre vurderingen forutsigbar og stimulere til bedre læring bør alle parter være forventningsstyrt på det aktuelle læringsutbyttet, og de bør være innforstått med arbeidsoppgaver under praksis og eventuelle arbeidskrav til godkjenning hos faglærer.

I prosjektet så vi også med bekymring på kandidatenes rettsikkerhet i forbindelse med vurdering av praksis. Kandidaten har ikke klagerett på en slik vurdering (jf. uhl 5‑3 [5]), så sett i lys av det som er nevnt over er rettstillingen svak ved påstand om feilaktig bedømming.
Karakterbruk

Det er eksplisitt nevnt at dagens karaktersystem skal være kriteriebasert, og ikke relativt. Det vil si at "sensor skal vurdere en prestasjon basert på fastsatte kriterier og ikke det relative resultatet innenfor en gruppe eller et kull" (Mld.st. 16 (2016–2017) 3.5, s. 56). Flere undersøkelser viser at karaktergrenser like fullt er påvirket av hvilken institusjon eller hvilket kull kandidatene tilhører. Prosjektgruppen bak SØF-rapporten (Senter for økonomisk forskning) Karakterbruk og kvalitet i høyere utdanning (2013) fant at institusjonsbidrag ("naive institusjonsbidrag") var sterkt preget av en karaktersettingspraksis hvor de "gamle" universitetene typisk skårer lavere (er strengere i karaktersetting) enn de "nye" og høyskolene. UHRs karakterundersøkelser viser at karakterfordelingen til en viss grad har endret seg mot "snillere" karakterer fra innførselen av dagens karakterskala i 2003. Prosjektgruppen ser også forskjeller i karaktersettingspraksis mellom ulike fagområder. De finner forskjeller i karakterbruk institusjonene imellom, men konkluderer ikke rundt årsaksforhold. Inntakskvalitet, studentenes opptakspoeng til studieprogrammene, synes ikke å påvirke karaktersettingspraksis i stor grad. Vår egen undersøkelse av data fra nasjonale deleksamener sett mot lokalt gitte sammenlignbare eksamener, Konsistente karakterer: Er en A en A? (2017), viser derimot at studieprogrammenes inntakskvalitet har en betydning for hvor karaktergrensene settes. Kriteriebasert karaktersetting burde tilsi at institusjoner som rekrutterer de sterkeste studentene har høyere karaktersnitt enn institusjoner som rekrutterer svakere studenter, gitt at institusjonsbidraget ikke er mye større ved sistnevnte kategori. Analysen viser at det ikke er tilfelle, og vi kan anta at karaktersettingen ikke er reelt kriteriebasert etter hensikten.

Vi ser fra NOKUTs rapporter fra tilsyn med institusjonenes kvalitetsarbeid at karakterfordeling på de forskjellige nivåer benyttes som kvalitetsindikator. Data hentes gjerne fra DBH på overordnet nivå (BA og MA) og suppleres med egne registerdata (vanligvis FS) for studieprogram og emner. Usikkerheten som fremgår av rapportene og undersøkelsene rundt hvorvidt karakterbruken er sammenlignbar over tid og på tvers av institusjoner, indikerer at karakterbruk, isolert sett, er en tvilsom kvalitetsindikator.
Vurderingskriterier

I Studiebarometeret ble studentene (bl.a.) spurt i hvilken grad de mener at eksamener, innleveringer og andre vurderingsformer hittil i studieprogrammet deres "har hatt tydelige kriterier for vurdering"? Studentene kunne svare på en skala fra 1 til 5, der 1 er "i liten grad" og 5 er "i stor grad".

Figuren under viser hvordan studentene har besvart disse spørsmålene. Utdanningstype kan velges i øverste rad.

Figur 1: Svarfordeling og gjennomsnitt på spørsmål om vurdering. Studiebarometeret 2019.

De fleste studentene er i stor grad enige i påstandene og er dermed positive til vurderingene. Sammenlignet med de andre spørsmålene om vurdering, er studentene mindre tilfredse med om kriteriene var tydelige. Et relativt stort mindretall (12 prosent) er negative (svaralternativ 1 og 2), mens 27 prosent valgte å svare i den midtre kategorien.

Forskjellene mellom utdanningstypene er ganske store på dette spørsmålet selv om de fleste studentene, på de fleste utdanningstypene, er fornøyde med studieprogrammet sitt. Studentene på utdanningstypene matematikk-statistikk (4,3), fysikk (4,2), politi og antropologi (begge 3,9) er mest enige i påstanden. Studentene på utdanningstypene arkitektur (3,3), medisin (3,4), biologi, logistikk-sikkerhet, sykepleie og rettsvitenskap (alle 3,5) er minst enige i påstanden. Forskjellene er enda større når vi går ned på studieprogramnivå. Funnene fra Studiebarometeret indikerer at vurderingskriterierne i mange tilfeller bør formidles tydeligere, eller i det minste at det er et informasjonssprik mellom en god del studenter og eksamensansvarlige.

En sensorveiledning er vurderingskriterier gitt for en bestemt vurderingssituasjon. I arbeidet med nasjonale deleksamener har eksamensgruppene utviklet stadig mer tydelige og gjennomarbeidede sensorveiledninger. Antallet klager på sensur som fører til endret karakter blir da redusert. I notatet Er karakterer rettferdige: Et notat om klagesensur (2017) undersøkte vi hvordan innføringen av blind klagesensur førte til at spriket mellom opprinnelig karakter og karakter etter klage fikk en økning. Omfanget er ikke stort, men likevel påfallende. I samme notat jamføres den overordnede statistikken med statistikken fra nasjonale deleksamener og viser hvordan tydelig utarbeidede vurderingskriterier er en sannsynlig forklaring på at karakterspriket før og etter klage kan begrenses i betydelig grad.

Vi kan ikke slå fast at vurderingskriterier generelt er uklare på grunnlag av denne undersøkelsen. Det er derimot mye som tilsier at det ofte er slik. Dersom to sensorer eller sensorpar er uenige om bedømming av en prestasjon, har ikke kriteriene vært presise. Det vil alltid være et innslag av faglig skjønn så lenge man opererer med åpne oppgaveformater ("constructed response"). I lukkede oppgaveformater ("selected response"), hvor flervalgsoppgaver er det mest utbredte, vil det normalt ikke være rom for faglig skjønn under sensureringen.

NOKUT formulerer gode prinsipper for spørsmålsformuleringer og sensorveiledninger, skåringsmodeller og karaktergrenser basert på erfaringene fra nasjonale deleksamener. Prinsippene kan utledes fra analyserapporter som Nasjonal deleksamen i anatomi, fysiologi og biokjemi desember 2017: I hvilken grad sensorenes poengsetting kan begrunnes faglig psykometrisk. Her går forfatterne gjennom en gitt eksamen og medfølgende sensurdata og undersøker hvorvidt oppgavene og deres formulerte sensurkriterier bidrar til rettferdig vurdering og reliabel sensur. Undersøkelsen viste at NOKUTs arbeid med eksamen ennå har et stort forbedringspotensiale og anbefaler i en rekke punkter hvordan kvaliteten på eksamen kan heves. Det helt avgjørende, er at man opererer med gjennomarbeidede kriterier ved hver vurderingssituasjon. En enklere fremstilling av hva man bør være seg bevisst før og etter eksamensgjennomføring er formulert i Kvalitetssikring av eksamensoppgaver: eksempler fra sykepleierutdanning. Prinsippene og teknikkene er i stor grad overførbare på alle typer vurdering.
Andre kilder/ressurser

Her har vi samlet en del lenker til ytterligere informasjon om vurdering.

– I Stortingsmeldingen Kultur for kvalitet i høyere utdanning (2017) fremgår bl.a. at vurderingen skal være kriteriebasert, og ikke relativ.

– Selve begrepet "vurdering" blir definert i nasjonalt kvalifikasjonsrammeverk.

– Senter for økonomisk forskning AS (SØF) har analysert Karakterbruk og kvalitet i høyere utdanning (2013).

– Universitets- og høgskolerådet har årlig arrangert en karaktersamling for kunnskapsdeling og erfaringsutveksling om karakterbruk.

– NOKUT arbeider med prinsipper for god eksamenskvalitet i arbeidet med Nasjonal deleksamen,

– Database for statistikk om høgre utdanning (DBH) har statistikk om eksamensresultater.