Toetsen en docenten horen bij elkaar als Brussel en Manneke Pis. Niet zonder discussie, maar het is, hoe er ook tegenaan gekeken wordt, een essentieel onderdeel van het werk van een docent om een oordeel over het leren van een leerling uit te spreken. En wanneer je dat doet, al dan niet met tegenzin, is het zaak om dat volgens de regelen der kunst te doen. Over de voorbereiding van toetsen zijn bibliotheken volgeschreven, over het nawerk weinig. Deel vijf over een eerste statistische analyse van de toets.

Vooraf

Het is voor elke statistische analyse van belang dat de vragen en de punten, te verkrijgen en toegekend, in de computer terecht komen. Excel is hiervoor de eerste keuze. Hoewel de beschreven methodieken uit 1962 komen, ver voor de brede beschikbaarheid van de computer.

Gemiddelde

Elke docent rekent als eerste het gemiddelde van de behaalde cijfers uit. Dat kan ook met de toegekende punten. Voor de betekenis van de uitkomst maakt het niet uit, voor de vergelijkbaarheid wel. Omzetten naar schoolcijfers maakt gemiddeldes onderling vergelijkbaar. Het (rekenkundig) gemiddelde is een centrummaat, het geeft een samenvatting van de punten per leerling door het middelen. Andere centrummaten zoals de modus en de mediaan worden in het onderwijs nauwelijks gebruikt voor het rapporteren over behaalde punten.

Moeilijkheid

De moeilijkheid van een (deel-)opgave kan worden berekend door het percentage toegekende punten voor die opgave te bepalen (Ebel, 1972). Bij een incidentele afname van de toets geeft de moeilijkheid alleen informatie over hoe deze leerlingen deze opgave gemaakt hebben en als moeilijk of niet hebben ervaren. De oorzaak van het al dan niet moeilijk ervaren, dient verder onderzocht te worden.

Wanneer de moeilijkheid handmatig berekend wordt, kan, aldus Ebel, volstaan worden met het berekenen van het percentage toegekende punten bij de opgave van de onderste en bovenste 27% procent van de behaalde eindscores op de toets. We bepalen dus de behaalde punten door alleen naar degenen te kijken die op de gehele toets veel dan wel weinig punten behaald hebben.

Ebel geeft geen norm voor wat een ideale moeilijkheid zou moeten zijn. De na te streven waarde hangt af van het doel van de betreffende opgave. Zo is in een proefwerk de eerste opgave meestal een relatief eenvoudige binnenkomer. Daar wil je dus een hoog percentage. De opgave bedoeld om de slimme leerlingen nog even uit te dagen, zou een laag percentage moeten hebben.

Bij meerkeuze-opgaven heet de moeilijkheid de p-waarde. Deze wordt langs een andere weg vastgesteld.

Voorbeeld:

We hebben een toets van één opgave. De punten voor de ene open vraag zijn direct het eindcijfer voor  de toets. Voor deze open vraag kunnen 7 punten behaald worden. De groep van 12 leerlingen die deze ene op gave maakt behalen: 3, 5, 2, 6, 5, 7, 3, 1, 6, 0, 6, en 5 punten. Vervolgens de stappen:

  1. De behaalde punten op volgorde: 0, 1, 2, 3, 3, 5, 5, 5, 6, 6, 6, 7
  2. De onderste kwart: 0, 1, 2, opgeteld 3.
  3. De bovenste kwart: 6, 6, 7, opgeteld 19.
  4. De som van de onderste bij de som van de bovenste: 3 + 19 = 22.
  5. Het maximaal te behalen aantal punten is 6 x 7 = 42 punten.
  6. Dan is 22/42 = 0.52 de moeilijkheid van deze opgave.

Discriminatie-index (D)

Opgaven in een proefwerk hebben tot doel onderscheid te maken tussen leerlingen die de opgave wel en niet kunnen maken. Dit is cruciale informatie voor de docent. Het percentage punten dat de sterke leerlingen meer behalen dan de zwakke leerlingen, geeft het discriminerend vermogen van de opgave aan (Ebel, 1972). Ebel geeft het volgende stappenplan:

  1. Sorteer de leerlingen op de toetsscore van laag naar hoog.
  2. Selecteer de leerlingen met de 27% laagste scores en de 27% hoogste scores.
  3. Bepaal voor deze deelgroepen per opgave de som van aantal punten dat behaald is.
  4. Bepaal het verschil tussen de somscores.
  5. Deel het verschil door het aantal punten dat deze twee deelgroepen had kunnen behalen om de Discriminatie-index te verkrijgen.

Voorbeeld

Behaalde punten: 3, 5, 2, 6, 5, 7, 3, 1, 6, 0, 6, 5
Gesorteerd: 0, 1, 2, 3, 3, 5, 5, 5, 6, 6, 6, 7
Onderste 27%: 0, 1, 2. Som = 3.
Bovenste 27%: 6, 6, 7. Som = 19.
Verschil: 19 – 3 = 16.
Maximaal te behalen door 6 leerlingen: 6 x 7 = 42.
Discriminatie-index = 16 / 42 = 0,38.

Wanneer uitgegaan wordt van alle leerlingen, komt de Discriminatie-index lager uit. Voor de zoals hierboven berekende waarden voor D geeft Ebel de volgende indeling:

0,4 en hoger: Zeer goede items
0,3 t/m 0,39: Redelijk goede items, wellicht zijn verbeteringen mogelijk.
0,2 t/m 0,29: Marginale items, aanpassing hiervan is noodzakelijk.
Onder de 0,19: Slechte items, dienen verwijderd of verbeterd te worden.

D is, aldus Ebel, wel afhankelijk van de leerlingengroep. Alleen bij grote aantallen neemt de invloed van de groep af.

Gebruik

Hiervoor zijn drie maten besproken. De eerste, het gemiddelde, is een centrummaat voor de gehele toets. Alleen wanneer deze opvallend afwijkt van de 6, zal er verder gekeken worden naar of de leerlingen of de toets.

De twee andere maten geven informatie over de opgaven binnen de toets. De eerste, de moeilijkheid, geeft aan in hoeverre leerlingen in staat gebleken zijn om punten te behalen voor die opgave. Opgaven vervullen binnen een toets een verschillende rol, dus hoewel we voor gewone opgaven een moeilijkheid rond de 50% zouden willen hebben, zijn er zeker redenen te noemen om hier van af te wijken.

De tweede, de Discriminatie-index D, laat zien in hoeverre een opgave onderscheid maakt tussen sterke en zwakke leerlingen.

Deze drie getallen dienen weloverwogen en in samenhang bekeken te worden. Ook de marges die Ebel geeft voor de D, zijn indicatief aangezien toeval zeker invloed heeft op de D.

Bibliografie

Ebel, R. L. (1972). Essentials of Educational Measurement (2 ed.). Englewood Cliffs, NJ.: Prentice-Hall Inc.