Toetsen en docenten horen bij elkaar als Engeland en hete curry. Niet zonder discussie, maar het is, hoe er ook tegenaan gekeken wordt, een essentieel onderdeel van het werk van een docent om een oordeel over het leren van een leerling uit te spreken. En wanneer je dat doet, al dan niet met tegenzin, is het zaak om dat volgens de regelen der kunst te doen. Over de voorbereiding van toetsen zijn bibliotheken volgeschreven, over het nawerk weinig. Deel twee van de poging om een best practice voor dat natraject te formuleren. Hierin aandacht voor het nakijken van open vragen.

Open vragen

Voor wat precies een open vraag is, gaan we te raden bij Ebel (Ebel, 1972). Hij gebruikt het woord essay, wat een langer antwoord suggereert. Hij stelt: “An essay test question requires the student to plan his own answer and to express it in his own words. An objective test item requires him to choose among several designated alternatives”. Uit deze omschrijving blijkt overigens het lange antwoord niet, wel stelt hij het tegenover gesloten antwoorden. Ik zou het niet tegenover gesloten vragen willen stellen, aangezien er ook nog half open vragen zijn.

Voorbeeld gesloten vraag:

Geef de formule bij de stelling van Pythagoras.

Voorbeeld half open vraag:

Noem drie van de vijf factoren die tot de oorzaken van de beurskrach van 1929 worden gerekend.

Voorbeeld open (essay) vraag:

Bespreek de ontwikkelingstheorie van Vygotsky.

Uit de omschrijving van Ebel blijkt (deels) wat de breedte van een open vraag kan zijn. Een opgave van waarin een zelfgeformuleerd antwoord wordt gevraagd waarbij het ideale antwoord in lengte kan variëren van twee zinnen tot aan een compleet boek. Met dit in gedachten, eerst aandacht voor correct nakijken en daarna een poging om tot aanbevelingen te komen.

Correct nakijken

Bij toetsen is het belangrijk dat ze correct worden nagekeken. Dit is een on-wetenschappelijke omschrijving, maar die wel aansluit bij wat leerlingen en docenten vinden. Wanneer er doorgevraagd wordt, dan blijkt dat het belangrijk is dat wat in het onderwijs (les, boek, betrouwbare bron) als correct is aangeduid, dat ook is in de toets. Daarnaast moet wat bij de ene leerling goed / fout gerekend is, ook bij de andere goed / fout gerekend worden. Als laatste moet het niet uitmaken wie nakijkt: verschillende docenten moeten tot hetzelfde oordeel komen.

De eerst eis wordt in de methodologie (meettechniek) aangeduid met inhouds-validiteit. De toets en het beoordelen van het werk, moet passen bij hetgeen onderwezen is. Een belangrijk deel van de zorg hiervoor zit bij de voorbereiding en laat ik buiten beschouwing.

De tweede eis heet intra-beoordeler betrouwbaarheid. Dat die ene docent, betrouwbaar is in zijn oordeel bij alle leerlingen. Lastig genoeg bij elke toets, bij open vragen een grote zorg.

De laatste eis heet de inter-beoordeler betrouwbaarheid. Dat twee of meer nakijkers tot hetzelfde resultaat komen.

Bij deze drie vereisten speelt mee, dat naarmate de meetschaal fijnmaziger is, de betrouwbaarheid afneemt en omgekeerd: wanneer de schaal algemener is, de betrouwbaarheid toeneemt. Immers: wanneer er veel goedgerekend kan worden, worden er makkelijker punten toegekend en komt het minder vaak voor dat er onterecht een puntje teveel of te weinig gegeven wordt. Het is dan ook gemakkelijker om tot eenzelfde oordeel te komen, ook wanneer verschillen in oordeel veroorzaakt worden door de beoordelaar. Naarmate de beoordelingsschaal gedetailleerder is, neemt de overeenstemming tussen beoordelaars af.

Anders dan bij meerkeuze-vragen is bij open vragen subjectiviteit een thema waar aandacht voor nodig is. Douwsma en Horsten (Dousma & Horsten, 1989) noemen drie problemen:

  • De eerste toetsen worden nauwkeuriger nagekeken dan de overige.
  • Wanneer een opvallend goed antwoord in de toets van leerling A gevonden wordt, wordt de toets van leerling B, direct daarna, strenger nagekeken.
  • Het uiterlijk van het werk speelt een grote rol.

Daarnaast spelen halo- en self-fulfilling prophecy effecten een grote rol (Holzhauer & Minden, 1978). Goede leerlingen krijgen een betere beoordeling dan zwakkere leerlingen voor hetzelfde werk.

Aanpak

Dat er bij het nakijken van open vragen verschillen in beoordelingen ontstaan, is min of meer onvermijdelijk. Die verschillen wegwerken kost onevenredig veel inspanning, tijd en dus geld. Wanneer je dit weet, is het zaak hier naar te handelen. Het kost minder tijd en inspanning om de beoordeling zo te organiseren dat de fouten wanneer ze gevonden worden, eenvoudig te herstellen zijn. Om dit mogelijk te maken, moet het nakijken, de correctie, voor de leerling te volgen zijn. Dit verlangt van de docent veel schrijven op het gemaakte werk.

Open vragen globaal beoordelen

Er is in de universitaire wereld veel onderzoek gedaan naar de overeenstemming bij verschillende beoordelaars over eindscripties of promoties. Daarbij is vooral gekeken of verschillende beoordelaars tot eenzelfde oordeel komen bij de beoordeling van één werkstuk (daar helaas even geen literatuurreferentie). De overeenstemming tussen beoordelaars blijkt dan snel minder dan 50% te zijn. Dit pleit voor een globaal oordeel, dit geeft immers de meeste kans op overeenstemming tussen de twee (of meer) beoordelaars.

Ebel (Ebel, 1972) suggereert het maken van stapels aan de hand van een twee- drie- of vierdeling en het geven van een etiket aan zo’n stapel. Nogal eens wordt volstaan met een driedeling: goed, matig, onvoldoende, waarbij matig nog net een voldoende is. Naarmate de opdracht meer open is en het werk erg verschillend is, is dit een eerlijke methode: immers, een voldoende kan met heel verschillend werk behaald worden.

Vanuit de leerlingen zal er behoefte zijn aan een onderbouwing van het oordeel. Hiermee ontstaat vrij eenvoudig een checklist, iets wat bij globaal beoordelen nu juist niet de bedoeling is. Om dit de voorkomen zal de nadruk moeten liggen op het feit dat iedere toets als zelfstandige eenheid beoordeeld is en daarmee beoordelingselementen mogen verschillen.

Aanpak

Bij een toets die één of meer open vragen bevat, worden de vragen stuk voor stuk nagekeken. Dus eerst alle opgaven 1, dan alle opgaven 2 enzovoorts. Bij het lezen van alle opgaven 1, wordt direct een stapel gekozen. Het gemaakte werkt wordt dus op niveau van het antwoord op opgave 1 gesorteerd. Vervolgens wordt beoordeeld of al het gemaakte werk in één stapel gelijkwaardig is. Uiteindelijk wordt het label of de punten bij het label, bij de opgave op het werk geschreven. Dit proces herhaalt zich totdat alle open opgaven beoordeeld zijn.

Een dergelijk proces kan ook toegepast worden bij werkstukken, scripties of zelfs boeken. Alleen neemt het leeswerk navenant meer tijd in beslag. Vermoeidheid en verveling of zelfs irritatie over gebrekkig werk, kunnen hierbij een grote invloed hebben op het oordeel. Een constatering van Ebel die ik helaas uit eigen ervaring moet onderschrijven (wat weer leidde tot twee keer nakijken).

Open vragen met een checklist beoordelen

Bij een open vraag kan natuurlijk bij het maken van de toets een lijst(je) gemaakt worden van de gewenste en ongewenste antwoorden (elementen). De checklist kan de vorm van een correctievoorschrift krijgen zoals bij elk eindexamen.

Elk jaar weer wordt duidelijk dat aan deze aanpak grenzen zitten: niet elk antwoord is voorzienbaar. Een checklist kan meer of minder gedetailleerd zijn. De 100-woorden eis bij de stelopdracht Nederlands is enerzijds heel algemeen, er worden geen eisen aan die woorden gesteld, anderzijds heel specifiek: één teveel is een fout. Het nakijkvoorschrift bij de wiskunde eindexamens schrijft meestal één of twee oplossingsmethodes voor, waarbij zéér gedetailleerd punten voor elke tussenstap worden toegekend. Een Rubric (Wikipedia) is een speciale vorm van een checklist. De checklist kan ook de eigen uitwerking door de docent zijn.

Uit het onderzoek naar de beoordeling van scripties komt naar voren dat de meeste beoordelaars zich eerst een globaal oordeel vormen om vervolgens met de checklist in de hand de onderdelen zodanig te scoren dat dat globale oordeel het eindoordeel is. De onderdelen van de checklist fungeren dan als onderbouwing van het algemeen oordeel. Vanuit de natuurwetenschappen komt een tweede verklaring voor de verschillen: elke meting heeft een meetfout. Naarmate er meer metingen gedaan worden, neemt het effect van die meetfout toe. Elk onderdeel van de checklist kan gezien worden als een meting. Meer elementen in de checklist, leidt dus tot meer verschillen tussen beoordelingen.

Vooral bij groter werk, kan de mening ontstaan dat de score op de elementen niet de score voor het geheel goed weergeeft. Blijkbaar worden er bij de deelelementen zaken gemist of krijgen een verkeerde waardering. Deze spanning zit altijd bij het beoordelen van open opdrachten met een checklist.

Omdat een checklist gedetailleerd nakijken veronderstelt, ontstaan er verschillen tussen beoordeelaars. Docenten met examenklassen ervaren de praktijk hiervan elk jaar weer. Ook als er redelijk wat overeenstemming is, zou de overeenstemming groter zijn, wanneer er algemener nagekeken zou mogen worden.

Aanpak

Ook bij het beoordelen van open vragen met een checklist wordt opgave voor opgave nagekeken. Bij elk werk wordt beoordeeld of en in welke mate aan het gestelde in de checklist wordt voldaan. Het element uit de checklist dat de doorslag gegeven heeft, wordt, samen met de punten, op het werk genoteerd.

Open vragen ombouwen naar gesloten

Een andere aanpak is om wel open vragen te stellen, om daarna aan de hand van de gegeven antwoorden een lijst op te stellen van die antwoorden en die van een punten te voorzien. Op deze manier wordt een open opgave een meerkeuze-opgave.

Met deze aanpak wordt bij de beoordeling aangesloten bij wat de leerlingen aan de docent aanbieden, wat meer aansluit bij het globaal beoordelen, terwijl wel met de precisie van het werken met een checklist tot een oordeel gekomen wordt. En inderdaad, er kunnen lange lijsten komen, maar nergens staat dat een meerkeuze-opgave zich moet beperken tot een keuze uit vier. De lijst met antwoorden geeft naderhand inzicht in hoe de leerlingen de opgave en de lesstof begrepen hebben en is daarmee voor elke docent van grote waarde.

Deze werkwijze lijkt wellicht de deur open te zetten tot willekeur en grote verschillen tussen beoordelaars. Echter, over de analyse van kwalitatief materiaal, waar we het hier over hebben, bestaat in de wetenschappelijke wereld een duidelijke consensus over wat wel en wat niet. Zie bijvoorbeeld Miles en Huberman (Miles & Huberman, 1994).

Aanpak

Het werk wordt per opgave nagekeken in twee rondes. In een eerste ronde worden alle verschillende gegeven antwoorden geïnventariseerd. Elke antwoord krijgt vervolgens een puntenaantal toegekend. In de tweede ronde wordt vervolgens bij elke leerling genoteerd welk antwoord uit de lijst gegeven is en wordt het puntenaantal in de kantlijn genoteerd.

Na afloop

Na afloop van het beoordelen, worden de op het werk genoteerde punten overgenomen in het rekenblad.

Tot slot

Uit het voorgaande blijkt wel dat het beoordelen van wat Ebel een essaytest noemt, bij het beoordelen nogal wat haken en ogen zitten. Bij andere toetsvormen zitten die haken en ogen bij de voorbereiding. Wellicht zijn er nog meer tips en praktische aanwijzingen. Laat het weten!

Bibliografie

Dousma, T., & Horsten, A. (1989). Tentamineren (2 ed.). Groningen: Wolters-Noordhoff b.v.

Ebel, R. L. (1972). Essentials of Educational Measurement (2 ed.). Englewood Cliffs, NJ.: Prentice-Hall Inc.

Holzhauer, F., & Minden, J. v. (1978). Psychologie: Theorie en Praktijk (2 ed.). Leiden: Stenfert Kroese.

Miles, M. B., & Huberman, A. M. (1994). Qualitative Data Analysis: An Expanded Sourcebook (2 ed.). Thousand Oaks, USA: Sage.

Wikipedia. (sd). Rubric (Academic). Opgeroepen op 10 07, 2012, van Wikipedia: http://en.wikipedia.org/wiki/Rubric (academic)