Een taalmodel ziet er niet uit als een magische 3D-woordenwolk, maar als een enorme tabel vol getallen. Elk woord is een rij cijfers, een vector, in een ruimte met honderden of zelfs duizenden dimensies. De vectoren bepalen hoe woorden zich tot elkaar verhouden. De afstand tussen getallen laat zien of ze logisch bij elkaar passen, zonder dat het generatieve AI-model er echt betekenis aan geeft. Het is pure wiskunde. De kracht schuilt niet in hoe het eruit ziet, maar in wat het kan: razendsnel voorspellen welk patroon of woord waarschijnlijk volgt.

Microlearnings: starten met AI. Wat zit er écht in een taalmodel? Spreker: Jurriaan Raaijmakers, teamlead AI, ministerie van Binnenlandse Zaken en Koninkrijksrelaties.
JURRIAAN: Denk je dat AI of een taalmodel eruitziet als een standaard database gevuld met woorden? Of als een grote wolk van woorden die in 3D om je heen zweven? Je bent niet de enige. Veel mensen zien het als een soort magische bol vol betekenissen, maar de realiteit is veel saaier, en veel indrukwekkender tegelijkertijd.
[Microlearnings: Starten met AI. Wat zit er écht in een taalmodel?]
JURRIAAN: Stel je voor: je opent het brein van een taalmodel. Wat verwacht je dan te zien? Veel mensen zien in hun hoofd een soort 3D-wordcloud van woorden die in de lucht hangen. Sommige dicht bij elkaar en andere veel verder weg. Misschien zelfs ronddraaiend in de ruimte, terwijl ze met elkaar in verbinding staan. Een prachtig beeld. Alsof je in een soort kosmos van taal kijkt. En dat beeld klopt gedeeltelijk. Maar het kan ook misleidend zijn.
Want AI werkt met tokens. Tokens zijn stukjes tekst, vaak delen van een woord. En die tokens krijgen een plek in de vectorruimte: een denkbeeldige kaart van betekenis. Sommige betekenissen liggen dicht bij elkaar, zoals 'man' en 'vrouw'. Andere liggen juist veel verder uit elkaar, zoals 'gelukkig' en 'onweer'. Je kunt je dus voorstellen dat al die tokens als kleine balletjes in de ruimte zweven en dat 'dichtbij' betekent: ze horen bij elkaar in de tekst.
Alleen die ruimte is niet 3D. Ook niet 4D of zelfs 5D. Een taalmodel gebruikt niet drie dimensies, maar honderden, duizenden dimensies tegelijkertijd. Dat zijn er zoveel, die kun je als mens niet meer voor je zien. Probeer het maar. Wat is de richting van een woord in een ruimte met 1536 dimensies? Het taalmodel lijkt niet op een zwevende woordenwolk, maar op een enorme tabel, een spreadsheet. Een plat document vol met kolommen en getallen. Geen woorden, zinnen of plaatjes. Alleen cijfers. Elk woord, of beter gezegd elke token, is een lange rij getallen. Die getallen vormen samen één vector: het adres van dat stukje betekenis in de denkbeeldige vectorruimte.
En als je dat doortrekt, dan lijkt het alsof het hele taalmodel één grote lijst van dit soort vectoren is. Een soort getallenboek. Een rekenmachine op steroïden. Niet een bibliotheek vol kant-en-klare betekenis, maar een motor die razendsnel berekent wat er waarschijnlijk volgt op wat.
Een AI-model bestaat uit heel veel van dit soort reusachtige tabellen met getallen. En hoe ziet dat er nou uit?
Saai. Echt waar. Een beetje alsof je naar Excel kijkt, maar dan met duizenden kolommen en miljoenen rijen. En toch is het juist daar indrukwekkend. Achter dat ogenschijnlijk simpele uiterlijk schuilt een enorm krachtig mechanisme dat taal kan verwerken. Op basis van wiskunde, niet op basis van gevoel. Dus 'koning' is niet een magisch woord dat ergens boven 'koningin' zweeft. Het is een vector van bijvoorbeeld 1536 getallen. En 'koningin' is óók een vector van 1536 getallen. En de afstand tussen die twee vectoren bepaalt hoe 'gelijk' ze zijn en of ze logisch bij elkaar horen in een zin.
Dus de volgende keer dat iemand vraagt wat er in een taalmodel zit, weet jij het antwoord. Het is geen woordenwolk, geen magische AI-ruimte, maar een platte, eindeloze tabel vol getallen. Simpel en briljant tegelijk. De magie zit niet in hoe het eruitziet, maar in wat je ermee kan doen.
[Veilig en verantwoord starten met AI. Deze serie is ontwikkeld in opdracht van het CDO Office van BZK door de RijksAcademie voor Digitalisering en Informatisering Overheid (RADIO) in samenwerking met JenV en Rijks ICT Gilde, onderdeel van Rijksorganisatie ODI.