AI in onderzoek en onderwijs

Leestijd 7 minuten

Categorie(ën):
[VL-L] AI in onderzoek en onderwijs

Lexima Magazine 2024 - artikel door Sam Boeve (UGent)

“Hey ChatGPT, schrijf me een artikel over het gebruik van generatieve taalmodellen. Ik wil weten hoe ze werken, wat ze ons leren over taal en hoe ze ons kunnen bijstaan in het onderwijs.”

Met de intrede van generatieve artificiële intelligentie (AI) toepassingen zijn we in staat tekst en media te genereren door simpelweg onze wensen te beschrijven. De mogelijkheden van zulke modellen lijken eindeloos. Wat zijn de gevolgen voor het onderzoeks- en onderwijsveld? Zullen we vergeten hoe te schrijven, lezen en zelf kritisch te denken of schakelen we ons leervermogen naar een hoger niveau met behulp van generatieve AI? Wat leert een model als ChatGPT ons over taal en de patronen in taal? Hoe werkt zo’n model überhaupt? 

Achter de schermen

Generatieve taalmodellen zijn in staat om tekst te generen op basis van een stelling of een vraag. Sommige taalmodellen, zoals ChatGPT, Bing Chat of Bard zijn ontworpen om dit te doen in vorm van ‘conversaties’ met de gebruiker. Dit staat in sterk contrast met de eerste taalmodellen uit de jaren vijftig, maar het vraagstuk dat ze trachten op te lossen is hetzelfde gebleven: wat is de onderliggende structuur van taal? Mensen hebben doorgaans geen enkele moeite om een zin als: “’s Ochtends voor ze naar het werk vertrok, zette ze eerst een stevige kop …” aan te vullen. Vanuit onze voorkeuren en ervaringen kunnen we inschatten dat het waarschijnlijker is dat iemand ’s ochtends kiest voor een kop koffie dan een kop soep. Voor taalmodellen is deze oefening minder triviaal. Doorheen de jaren zijn er verschillende oplossingen voorgesteld.

De eerste versie van een taalmodel kennen we vandaag onder de naam N-gram model. Zo’n model neemt een grote hoeveelheid tekst en gooit er een portie kansrekening tegenaan. Aan de hand van woordfrequenties probeert het in te schatten hoe de zin waarschijnlijk zal eindigen. Simpele frequenties zijn niet informatief, elke zin zou aangevuld worden met het meest voorkomende woord in een taal. We kunnen dit echter uitbreiden door te tellen welke woorden volgen op het woord ‘kop’ in een grote hoeveelheid tekst (d.i., een conditionele frequentie) en het woord met de hoogste conditionele frequentie te nemen. Dit is hoe een 2-gram model functioneert. We kunnen deze oefening verderzetten naar de twee, drie of meer voorgaande woorden (3, 4 – gram model). Toch is er een probleem: het model vangt enkel het letterlijk samen voorkomen van precies dezelfde woorden op. Koffie wordt dus voorspelt na het woord ‘kop’ maar niet na het woord ‘tas’. Taal is zo flexibel dat er tientallen, misschien wel honderden manieren zijn om eenzelfde boodschap uit te drukken. Er is nood aan een zekere abstractie van de betekenis van woorden.

Dit wordt deels opgevangen door artificiële neurale netwerken, meer bepaald recurrent neural networks (RNN). In de zin ‘Het boek was zo spannend dat Marie het in één nacht uitlas’ verwijst ‘het’ naar Marie’s boek. Deze link gaat verloren in een N-gram model maar RNNs pikken dit wel op. Waarom? Een RNN gaat een tekst woord per woord verwerken en plaatst de woorden één per één in een tijdelijk geheugen. Dit geheugen is gelimiteerd en bij elke nieuwe toevoeging ‘vervagen’ de geheugensporen van oudere woorden. Door grote hoeveelheden tekst aan een RNN te presenteren, leert het de relaties tussen woorden. Het leert dat ‘het boek’ correct is en ‘de boek’ niet, alsook dat boeken ‘spannend’ kunnen zijn maar niet ‘lekker’. Neurale netwerken leren de informatie van woorden dus op een abstractere manier te representeren. Betekenis is dan ook steeds relatief. Het leert dat woorden als ‘viool’ en ‘piano’ een gelijkaardige rol vertolken, maar dat woorden zoals ‘onderwijs’ en ‘aardappel’ minder gerelateerd zijn. Het model bouwt een betekenisnetwerk op en gebruikt dit bij de voorspelling van het volgende woord. De voorspellingen staan nog niet op punt, het abstraheren van de onderliggende verhoudingen is niet perfect en mist zo bepaalde relaties tussen woorden en concepten. Twee nieuwe technieken: positionele codering en aandacht, zorgden voor een aanzienlijke verbetering. Deze twee nieuwe technieken werden toegepast in zogenaamde transformer modellen (waar de ‘T’ in ChatGPT naar verwijst).

Wat houden deze nieuwe technieken in? Positionele codering laat toe het model sneller te trainen. De volgorde van woorden in een zin is uiterst belangrijk voor de betekenis ervan. Neem de zin ‘lees ik dat goed’ versus ‘goed dat ik lees’. Met positionele codering wordt elk woord gelinkt aan een uniek nummer dat de positie van dat woord in de zin weergeeft. Hierdoor moeten deze modellen niet langer woord per woord getraind worden, maar kunnen grote hoeveelheden tekst in één keer verwerkt worden. Op deze manier kan het model sneller meer tekst verwerken en komt het zo tot betere voorspellingen.

Daarnaast is er ook het aandachtsmechanisme. Dit laat het model toe terug te ‘kijken’ naar eerdere woorden in de zin. Het model leert welke woorden in een zin de meeste informatie bevatten voor de voorspelling van latere woorden. Op die manier is het in staat om veel verder en preciezer terug te kijken naar voorgaande woorden. In de zinnen “In het park rustte hij even uit op de bank” of “Voor een lening ging hij naar de bank”, zal het aandachtsmechanisme zorgen voor een focus op de woorden die de ambiguïteit van het woord ‘bank’ kunnen oplossen, hier ‘park’ of ‘lening’. Dit laat toe veel nauwkeuriger verbanden te leggen tussen woorden.

De ‘magie’ van huidige taalmodellen zit dus in hoe ze woorden onderling leren representeren en hoe snel ze dit doen. Taalmodellen leren een betekenisnetwerk op basis van de patronen in gigantische hoeveelheden tekst en kunnen vervolgens coherente combinaties van woorden produceren. Ze produceren dus niets nieuws, maar ordenen woorden op een manier die voldoet aan de onderliggende patronen in een taal.

Nieuwe technologie, oud debat

De prestaties van de hedendaagse taalmodellen doen sommigen geloven dat ze beschikken over een vorm van zelfbewustzijn1. De rebellie van robots is nog veraf, maar dat zo’n chattend taalmodel sommigen kan doen geloven in zijn zelfbewustheid is opmerkelijk. Het leert ons iets over taal en wat geleerd kan worden door blootstelling aan taal. In dit onderzoeksveld zijn er ruwweg twee kampen. De nativisten geloven dat mensen een aangeboren capaciteit hebben voor taal. Anderzijds geloven de empiristen dat ons taalvermogen het product is van onze blootstelling aan taal en onze algemene cognitieve vaardigheden, zoals aandacht en geheugen. Het standpunt van de nativisten berust voor een groot deel op het argument dat onze blootstelling aan taal te weinig informatie bevat om, onder andere, grammatica op te pikken (vaak het ‘poverty of the stimulus’ argument genoemd). Zo zouden kinderen te veel inconsistenties horen in gesproken taal om daaruit de grammaticale regels te ontdekken.


De komst van taalmodellen heeft dit debat nieuw leven ingeblazen. De empiristen benadrukken hoe taalmodellen zoals ChatGPT er in slagen grammaticale output te generen zonder een vooraf geprogrammeerde grammatica, iets wat niet mogelijk zou zijn volgens de nativisten. De nativisten wijzen er dan weer op dat geen mens ooit de hoeveelheid tekst heeft doorworsteld die deze modellen te verwerken hebben gekregen.


ChatGPT weerspiegelt niet hoe mensen een taal leren. Verschillen in de benodigde hoeveelheid input om vertrouwd te raken met een taal zijn dus niet verwonderlijk. Dat het mogelijk is om louter dankzij een immense hoeveelheid tekst, zonder bijkomende informatie over hoe taal werkt, de grammatica en de unieke patronen van een taal te reproduceren, is wel spectaculair. Belangrijker zijn de mogelijkheden die taalmodellen bieden voor het bestuderen van taal en wat geleerd kan worden louter op basis van onze blootstelling aan taal. Sommige taalmodellen lijken meer moeite te hebben met negaties dan met het omkeren van rollen, sommige taalmodellen kunnen rijmen anderen slagen hier niet in. Via onderzoek naar dit soort beperkingen kunnen we inzichten krijgen in de structuur van taal en in hoeverre het leren van deze patronen voldoende is voor het succesvol gebruiken van taal.

Over valsspelen en inspireren

Taalmodellen openen heel wat onderzoeksdeuren. Ook in het onderwijs zorgen taalmodellen voor beroering. Disruptieve innovaties die nieuwe mogelijkheden scheppen en oude werkwijzen dreigen te vervangen, wekken vanouds enige weerstand en bezorgdheden op. Angst voor plagiaat en misbruik steekt de kop op. Desondanks moeten we de kansen die deze technologie biedt, benutten. Hoe sporen we studenten aan generatieve taalmodellen op een ethische manier te gebruiken? Hoe kan het ons informeren of inspireren? Hoe kunnen zulke modellen gebruikt worden in het klaslokaal?

  • Privé bijles: Taalmodellen zijn uitstekend in het samenvatten van informatie, maar kunnen deze ook verpakken in verschillende moeilijkheidsgraden. Geïndividualiseerde uitleg op elk niveau ligt zo binnen ieders handbereik.
  • Inspiratie: ChatGPT kan de start voorzien van een verhaal of een opstel waar leerlingen dan op kunnen verder werken. Geen last meer van het lege-pagina syndroom.
  • Feedback: ChatGPT kan de structuur en de duidelijkheid van een opstel beoordelen. Leerlingen kunnen deze feedback gebruiken om meer inzicht te krijgen in hun schrijfvaardigheid en hun eigen werk te verbeteren.
  • The student becomes the master: Laat leerlingen een opstel gegenereerd door ChatGPT beoordelen op verschillende aspecten: opbouw, inhoud, juistheid, enz. Dit laat ze toe te ontdekken waar de sterke en zwakke punten van een taalmodel liggen om deze kritisch te gebruiken.
  • Flashcards: Taalmodellen hebben geen moeite met het genereren van vragen rond een onderwerp of op basis van een tekst. Leerlingen kunnen vragen genereren en deze zelf oplossen als voorbereiding.

Taalmodellen bieden een veelheid aan mogelijkheden. Naast de mogelijkheid tot misbruik loert een nieuwe ‘digital divide’ om de hoek. Leerlingen die taalmodellen gebruiken als vervanging in plaats van als een toevoeging aan hun eigen denkvermogen lopen het risico leerkansen te laten schieten en de eigen creativiteit onbenut te laten. Laten we leerlingen dus actief aansporen om taalmodellen te gebruiken op een manier die het kritisch denken stimuleert, ons tot nieuwe inzichten doet komen en de creativiteit prikkelt. AI en generatieve taalmodellen omarmen in het klaslokaal is cruciaal om leerlingen de vruchten van deze technologie te laten plukken. Laten we met zorg en verantwoordelijkheid deze technologieën integreren in het onderwijs en ervoor zorgen dat technologie de educatieve ervaring verbetert zonder deze te vervangen.

Over Sam Boeve

Sam Boeve werkt als doctoraatstudent experimentele psychologie aan de Universiteit Gent in de onderzoeksgroep van prof. Louisa Bogaerts. Hij onderzoekt welke informatie kinderen en volwassenen gebruiken tijdens lezen en hoe dit het lezen beïnvloedt. In dit onderzoek wordt gebruik gemaakt van taalmodellen die geoptimaliseerd worden aan de hand van de onlinebibliotheek van Lexima.

Bronnen
Chomsky, N. (2011). Language and Other Cognitive Systems. What Is Special About Language? Language Learning and Development, 7(4), 263–278. https://doi.org/10.1080/15475441.2011.584041 


Contreras Kallens, P., Kristensen-McLachlan, R. D., & Christiansen, M. H. (2023). Large Language Models Demonstrate the Potential of Statistical Learning in Language. Cognitive Science, 47(3), e13256. https://doi.org/10.1111/cogs.13256 


Murphy, E. (2023, April 26). Notes on Large Language Models and Linguistic Theory. Elliot Murphy. https://elliot-murphy.com/2023/04/26/notes-on-large-language-models-and-linguistic-theory/ 


Piantadosi, S. (2023). Modern language models refute Chomsky’s approach to language. 


Wolfram, S. (2023, February 14). What Is ChatGPT Doing … and Why Does It Work? https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/