De kennis van generatieve AI komt niet uit slim denken, maar uit grote hoeveelheden data. Wat daarin ontbreekt of verkeerd is, kopieert het model als waarheid. Het denkt namelijk niet, maar herhaalt patronen. Slechte of eenzijdige data leiden tot verkeerde of onwenselijke antwoorden. Grote modellen kosten daarnaast enorm veel energie. Soms zijn kleinere, lokale modellen een oplossing om meer grip te hebben op de data en uitkomsten. Zo’n model is vaak duurzamer, efficiënter voor specifieke taken en het is bekend op welke data het model getraind is.

Microlearnings: starten met AI. Waarom data de ziel van AI is. Spreker: Jurriaan Raaijmakers, teamlead AI, ministerie van Binnenlandse Zaken en Koninkrijksrelaties.
JURRIAAN: AI lijkt soms een wondermachine: je stelt een vraag en er komt een slim antwoord uit. Maar waar haalt AI die kennis vandaan, en hoe weet het wat het weet?
[Microlearnings: starten met AI. Waarom data de ziel van AI is.]
JURRIAAN: Als AI-modellen die achter bijvoorbeeld VLAM of Robin zitten patronen willen herkennen, moeten ze die eerst heel veel zien. En dat betekent: enorme hoeveelheden data. Denk aan terabytes aan informatie.
Maar let op: groter is lang niet altijd beter. Het gaat niet alleen om hoeveel data, maar vooral om wát voor data en welke kennis erin zit.
Waarom is dat nou zo belangrijk? Omdat een model niet data onthoudt, maar een soort kader van betekenis eromheen bouwt. Hoe beter, rijker en kwalitatiever de data, hoe nauwkeuriger dat kader.
Sommige verbanden zijn heel logisch, maar het kan ook anders lopen. Stel: er zit 1 terabyte aan creatieve content in de trainingsdata, met filmscripts, audioboeken en toneelstukken. Wat voor beeld wordt er dan geschetst over AI? Films waarin AI de wereld redt? Of films waarin AI de wereld overneemt? Juist. Denk aan IRobot, The Matrix, Black Mirror. Als je alleen die data aan een AI voert, dan leert het model het patroon. AI is gevaarlijk. AI is dominant. AI neemt de mensen over. Maar AI denkt dit niet zelf. AI kopieert de patronen.
Daarom is kwalitatieve, diverse, gebalanceerde data zo belangrijk. De meeste grote modellen worden getraind met data uit commerciële, Amerikaanse hoeken. Onze Europese cultuur, normen, waarden, geschiedenis en zelfs taal zijn daarin ondervertegenwoordigd. Dus hoe kan AI jou goed begrijpen als het jouw wereld nauwelijks kent?
En dan is er nog de impact op de wereld. Het trainen van zulke enorme modellen kost niet alleen heel veel data, maar ook gigantisch veel energie, continue rekenkracht, zelfs als je het niet gebruikt, serverparken die dag en nacht draaien. En dat terwijl je vaak niet eens zo'n groot model nodig hebt. Kleinere, goed gefocuste modellen of lokale toepassingen kunnen vaak net zo goed of zelfs beter werken en bevatten ónze normen, waarden en cultuur.
AI draait dus op data. Heel veel data. Maar wat erin zit, bepaalt wat eruit komt. Als de AI vooral verhalen leert waarin mensen worden vernietigd, is het niet gek dat het dat soort patronen overneemt. En als je een groot model een standaard format laat maken, is het niet gek dat er af en toe, ondanks al je waarborgen, toch ineens iets onverwachts staat. En als het model vooral met een Amerikaanse blik gevoed is, snapt het veel minder van jouw context.
Dus wil je AI gebruiken? Dan is het belangrijk dat je niet alleen weet wat het model zegt, maar ook waarom het dat zegt. En alles begint bij de data.
[Veilig en verantwoord starten met AI. Deze serie is ontwikkeld in opdracht van het CDO Office van BZK door de RijksAcademie voor Digitalisering en Informatisering Overheid (RADIO) in samenwerking met JenV en Rijks ICT Gilde, onderdeel van Rijksorganisatie ODI.]