Annelies de Mol is leraar Engels en teacher in residence bij NOLAI en  schrijft over AI in het voortgezet onderwijs

Toetsdruk voor AI - Annelies weet het beter! ...toch?

Niet Annelies, maar #AI weet het beter. Want ik lees dat ChatGPT geslaagd is voor het bar examen. Dat wil zeggen, de AI kan met zeer grote nauwkeurigheid en grote statistische rekenkracht berekenen wat het meest gewenste antwoord op een set van gestandaardiseerde toetsvragen is. Maar in hoeverre moeten ik hier echt van onder de indruk zijn?

Emily Bender en Alex Hanna zeggen van niet. Het getuigt eerder van een beperkt begrip van het werk dat professionals verrichten. In hun boek The AI Con leggen Bender en Hanna de verschillende manieren bloot waarop AI wordt opgehypet en reflecteren ze op de risico’s hiervan. Evaluatiemethodes voor AI illustreren dit. Voor het testen van AI, vooral de populaire gen-AI’s, wordt namelijk gebruik gemaakt van #gestandaardiseerdedatasets. Doet een systeem het goed op deze dataset, dan bereikt deze een hoge score en die wordt graag gedeeld. 

Het inzetten van gestandaardiseerde toetsen zoals het bar examen is hier een recent voorbeeld van. Echter, wij als onderwijzers zouden toch direct moeten zien wat hieraan mankeert. 

Een gestandaardiseerde test zegt mij namelijk niets over wat een leerling daadwerkelijk kan in de echte wereld. 

Je toetst dan vooral wat er te #toetsen valt in een gecontroleerde setting. Het is een beperkte manier van #evalueren, waarop gericht en strategisch valt voor te bereiden. 

Annelies de Mol is leraar Engels en teacher in residence bij NOLAI en  schrijft over AI in het voortgezet onderwijs

En dat is precies wat er in AI-land gebeurt. AI-bedrijven laten graag zien hoe goed hun AI het doet ten opzichte van anderen. Dit kun je bijvoorbeeld doen door word error rate (WER) te vergelijken. Maar WER zegt niks over het succes van het systeem. Zoek je bijvoorbeeld naar een systeem dat alarmcentrales ondersteunt, dan zou je denken dat het systeem met de laagste WER het beste is. Maar straatnamen zullen geen onderdeel zijn geweest van de gestandaardiseerde trainingsdata.  En wat als mensen door hun paniek minder goed articuleren, hoger praten, of zelfs huilen? Is een WER dan nog steeds relevant? Daarnaast, zou je je moeten afvragen of automatisering in dit geval wel wenselijk is. 

Toch wordt AI vaak verkocht als het wondermiddel en evaluaties met gestandaardiseerde datasets onderbouwen dit verhaal. Maar laten we kritisch blijven en ook goed kijken naar wat er daadwerkelijk getoetst is. Sluit dit ook aan bij datgene wat het systeem in de grote boze buitenwereld moet doen? Helaas is het antwoord nog veel te vaak ‘nee’. Juist om deze reden zijn we bij NOLAI heel kritisch op het gebruik van algemene AI in het #onderwijs, en staan we voor #educatieveAI die speciaal wordt ontwikkeld om het leren en #lesgeven te ondersteunen.

Geschreven door
Annelies de Mol is leraar Engels en examencoördinator op het Bonaventura Agora Leiden. Als teacher in residence is zij ook betrokken bij hashtag#NOLAI, het nationaal onderwijslab AI. Annelies schrijft over AI in het voortgezet onderwijs. Hoe kan AI écht van toegevoegde waarde zijn voor leraren en leerlingen?