Wat zijn datapunten?

Dit is de eerste blog in de serie Programmatisch toetsen door Christina Schouten. Lees hier de inleiding op de serie.

Wat zijn datapunten eigenlijk? Deze vraag werd gesteld door een collega in een leerteambijeenkomst over programmatisch toetsen. Uit de antwoorden van de verschillende collega’s bleek dat er sprake is van een gedeeld beeld. Maar bij het noemen van concrete voorbeelden bleken we toch een verschillende invulling te geven aan dit begrip.

De term ‘datapunten’ is in programmatisch toetsen essentieel. Het idee is dat individuele toetsen of beoordelingsmomenten informatie geven waarmee het leren van de student in beeld wordt gebracht. Meerdere datapunten leveren een rijk beeld op van wat de student kan en kent. Op basis van meerdere datapunten kunnen opleiders vaststellen of een student de gewenste competenties of leeruitkomsten heeft behaald (Van der Vleuten, Schut & Heeneman in Sluijsmans & Segers, 2018).

serie afbeeldingen van de Mona Lisa: van wazig naar een steeds scherper beeldeen

Voorbeelden van datapunten

Daarmee is nog niets gezegd over hoe we datapunten concreet kunnen invullen. In Programmatisch toetsen, voorbeelden en ervaringen uit de praktijk (Baartman, Van Schilt-Mol & Van der Vleuten, 2020) wordt gesteld dat iedere vorm van beoordeling als datapunt kan worden gebruikt. Ik noem hier de voorbeelden die in het boek worden gegeven:

Een score op een meerkeuzetoets
Een reflectieverslag van de student op een ervaring
Video van het gedrag van de student
Een peer-evaluatie
Een 360-gradenbeoordeling
Een onderzoeksverslag
Een beroepstaak

Prestaties of waardering?

Opvallend aan deze opsomming is dat zowel prestaties (zoals een opdracht, kennistoets of beroepstaak) van een student als waarderingen over deze prestaties worden benoemd. Dit wordt bevestigd door de auteurs, direct na de opsomming wordt namelijk gesteld: “een datapunt kan ook de leertaak zelf betreffen” (p. 18).

Subjectiviteit

De functie van de datapunten is het geven van inzicht in het leren en presteren van de student. Een robuust besluit is niet mogelijk wanneer de prestaties van een student door één beoordelaar worden gewaardeerd. Er is dan in verminderde mate sprake van een rijkdom aan informatie. Sterker nog, er is sprake van een sterkere subjectiviteit van de beoordeling, net als wanneer we de beslissing op één toetsvorm baseren. Alleen prestaties opnemen, zonder bijbehorende waarderingen, lijken dus niet passend bij het concept programmatisch toetsen.

Maar stel je voor, de datapunten bestaan wisselend uit:

Een aantal waarderingen, denk bijvoorbeeld aan feedback van een docent en van een werkplekbegeleider, én
Een aantal prestaties die nog door de beoordelaar moeten worden gewaardeerd.

Half-om-half

Hier is sprake van een veelheid aan waarderingen op basis waarvan de zak-slaag beslissing wordt genomen. Dat leidt tot een betrouwbaardere beoordeling dan de situatie die hiervoor werd geschetst. Tegelijkertijd vraag ik me af: wordt de kijk van een beoordelaar op de door anderen gegeven waarderingen beïnvloed, wanneer hij zelf een deel van het werk van de student heeft gewaardeerd? Kleuren de eigen beoordelingen zijn kijk op de feedback van anderen? En hoe weegt hij deze dan ten opzichte van elkaar? Ik kan me voorstellen dat de eigen waarderingen hem meer voor de geest staan en sterker meewegen in het geheel. Ik kan hier geen bewijs voor aanvoeren, maar het lijkt mij geen onlogische gedachte.

Datapunten kunnen ook enkel bestaan uit alleen waarderingen door anderen, denk bijvoorbeeld aan:

feedback van docenten, werkplekbegeleiders, peers
analyses van een gemaakte kennistoets,
tussentijdse evaluaties over meerdere datapunten
door de student geschreven reflectieverslag over een prestatie.

Vorig jaar heb ik samen met collega’s van een aantal lerarenopleidingen ervaring opgedaan in het beoordelen op grond van datapunten. Tijdens dit proces bleken beoordelaars behoefte te hebben aan kennis over de geleverde prestatie van de student. Zij konden de waarderingen niet altijd goed interpreteren zonder de betreffende prestaties in te zien.

Wat zeggen waarderingen zonder prestaties?

Een voorbeeld ter illustratie: uit gegeven feedback blijkt dat een student in gesprek durft te gaan met een leerling die de les verstoort. De student leidt dit gesprek zorgvuldig. Dit geeft zicht op de gespreksvaardigheden van de student. Maar de beoordelaar had geen zicht op de context waarin dit gesprek plaatsvond: was dat in de volle klas, direct na afloop van de les of moest de leerling nakomen? En waarover ging dit gesprek dan precies, bleef het beperkt bij het hoe en waarom van het wangedrag van de leerling in de klas, over de sancties die daarop volgen of heeft de student geprobeerd te weten te komen wat de aanleiding was van het wangedrag?

Een ander voorbeeld: een score van 80 % op een toets klinkt erg goed. Maar waarover ging de toets precies, welke onderwerpen kwamen aan bod en op welk niveau vond deze toets plaats? Ging het om reproductie van kennis of om toepassing middels casuïstiek?

Duidelijk werd dat, wanneer er onvoldoende kennis is over de prestatie, het lastig is om de waardering c.q. feedback te wegen.

Mogelijk was de gegeven feedback niet informatierijk genoeg. Om dit te voorkomen zouden we in de feedback informatie kunnen geven over de betreffende prestatie. Een datapunt is dan de waardering én omschrijving van de prestatie. Een andere mogelijkheid is om een datapunt te laten bestaan uit zowel de (vastgelegde) prestatie als de daaraan gekoppelde waardering. De beoordelaars kunnen dan de prestatie inzien, wanneer zij daar behoefte aan hebben.

Prestaties én waarderingen

Of een datapunt per definitie zowel een prestatie als waardering dient in te houden, is twijfelachtig. De vraag is of je prestaties die niet vast te leggen zijn, zoals aan een (spontane) bijdrage van een student in een vergadering, in de beoordeling wilt betrekken. In een dergelijk geval bevat het datapunt wel de waardering maar niet de prestatie zelf. Dit valt te overwegen, zeker wanneer de student werkt in een dynamische omgeving zoals het onderwijs.

Literatuur

Baartman, Van Schilt-Mol & Van der Vleuten (2020). Programmatisch toetsen, voorbeelden en ervaringen uit de praktijk. Amsterdam: Boom Uitgevers.
Van der Vleuten, Schuwirth, Driessen, Dijkstra, Tigelaar, Baartman & Van Tartwijk (2012). A model for programmatic assessment fit for purpose. Medical Teacher, 34 (205–214).