GPT-NL en het NTVG: bouwen aan een taalmodel van eigen bodem

Large Language Models (LLM’s) zijn systemen die taal begrijpen en zelf teksten genereren. Ze leren dit door grote hoeveelheden tekst te analyseren en patronen te herkennen. Op basis daarvan produceren ze antwoorden. Niet door bestaande zinnen op te zoeken, maar door nieuwe tekst te vormen.

Bekende modellen zoals ChatGPT, Claude en Gemini zijn in handen van Amerikaanse techbedrijven. GPT-NL is een Nederlands alternatief, ontwikkeld door TNO samen met SURF en het NFI, met steun van de Rijksoverheid. Doel: een transparant, Nederlandstalig AI-model dat voldoet aan Europese regelgeving en publieke waarden.

De bijdrage van het NTVG

Een AI-model is zo goed als de teksten waarmee het getraind wordt. Het NTVG heeft daarom haar volledige archief van 1982 tot 2025 aan TNO beschikbaar gesteld. Dankzij peer review en professionele eindredactie vormt dit een hoogwaardige dataset. Persoonsgegevens worden vooraf verwijderd of geanonimiseerd.

NTVG leverde trainingsmateriaal voor GPT-NL

Wat betekent dit voor auteurs

Artikelen maken deel uit van de trainingsdata, maar mogen niet één-op-één worden gereproduceerd. Daarover zijn strikte licentieafspraken gemaakt. Reverse-engineering om originele artikelen terug te halen is verboden. Het model mag ook niet worden ingezet voor concurrerende modellen of geautomatiseerde nieuwsdiensten die het verdienmodel van uitgevers ondermijnen. TNO ziet er actief op toe dat geen onrechtmatig verkregen data worden gebruikt.

GPT-NL in ontwikkeling

De eerste versie wordt momenteel getest door een selecte groep gebruikers, vooral binnen de overheid. Bijzonder is dat het model lokaal (‘on premise’) op eigen servers draait, zonder dat data naar de cloud of buitenlandse partijen gaan. Zo onderzoekt het ministerie van Binnenlandse Zaken toepassingen voor burgerdiensten en test het NFI het model voor forensische analyse. Brede uitrol volgt naar verwachting in de tweede helft van 2026, waarna ook het NTVG het model wil inzetten.

Het NTVG en het GPT-NL Public Corpus

Op het openbare platform Huggingface staat een downloadbare verzameling van teksten uit publieke bronnen waarmee GPT-NL is getraind. Onder anderen bronnen uit de Tweede Kamer, De Rechtspraak en het Zeeuws Archief. Dit is wat de EU AI Act vereist van een betrouwbaar taalmodel: aantoonbare transparantie over trainingsdata.
De NTVG-artikelen vallen onder private data-sets. Openbaar zijn uitsluitend de metadata die beschrijven wat de collectie inhoudt, hoe zij is samengesteld en wat de kwaliteit ervan is. De NTVG-bijdrage aan GPT-NL is daarmee wél traceerbaar en controleerbaar maar de inhoud van onze artikelen blijft volledig afgeschermd.

GPT-NL als motor van Ask NTVG

Onze AI-tool Ask NTVG zoekt nu in het NTVG-archief en stuurt relevante fragmenten uit artikelen door naar een Amerikaans model (GPT-5), dat vervolgens de antwoorden formuleert. Het streven is om die Amerikaanse component dit najaar te vervangen door GPT-NL. Daarmee komt de volledige infrastructuur op Europese bodem te draaien, in lijn met de AI Act en Europese regels voor auteursrecht en transparantie.