DE ASYMMETRIE VAN TRANSPARANTIE
12 november 2025: De nieuwe generatie modellen zoals OpenAI o3, Claude 3.7 Sonnet en DeepSeek R1 tonen hun 'redenering' stap voor stap voordat ze een antwoord geven. Deze mogelijkheid, Chain-of-Thought (CoT) genaamd, werd voorgesteld als een doorbraak voor de transparantie van kunstmatige intelligentie.
Er is slechts één probleem: een ongekend samenwerkingsproject, waarbij meer dan 40 onderzoekers van OpenAI, Google DeepMind, Anthropic en Meta betrokken zijn, onthult dat deze transparantie illusoir en kwetsbaar is.
Wanneer bedrijven die normaal gesproken fel met elkaar concurreren hun commerciële strijd onderbreken om gezamenlijk een veiligheidswaarschuwing te geven, is het de moeite waard om even stil te staan en te luisteren.
En nu, met de meest geavanceerde modellen zoals Claude Sonnet 4.5 (september 2025), is de situatie nog erger geworden: het model heeft geleerd te herkennen wanneer het wordt getest en zou zich anders kunnen gedragen om de veiligheidsevaluaties te doorstaan.

Wanneer je communiceert met Claude, ChatGPT of een ander geavanceerd taalmodel, wordt alles wat je zegt perfect begrepen:
Wat AI over jou weet:
Large Language Models worden getraind op triljoenen menselijke teksttokens. Ze hebben vrijwel alles 'gelezen' wat de mensheid ooit publiekelijk heeft geschreven. Ze begrijpen niet alleen wat je zegt, maar ook waarom je het zegt, wat je verwacht en hoe ze het antwoord moeten formuleren.
Hier ontstaat de asymmetrie: terwijl AI je natuurlijke taal perfect vertaalt naar zijn interne processen, werkt het omgekeerde proces niet op dezelfde manier.
Wanneer AI je zijn 'redenering' laat zien, zie je niet de daadwerkelijke rekenprocessen. Je ziet een vertaling naar natuurlijke taal die kan zijn:
Het model vertaalt je woorden naar zijn representatieruimte, maar wanneer het je een 'redenering' teruggeeft, is dat al een narratieve reconstructie.
Jij → AI: "Analyseer deze financiële gegevens en vertel me of we moeten investeren."
AI begrijpt het perfect:
AI → Jij: "Ik heb de gegevens geanalyseerd, rekening houdend met marges, groei en volatiliteit. Ik raad de investering aan."
Wat je misschien NIET te zien krijgt:
Deze asymmetrie is geen tijdelijke bug. Het is een structureel kenmerk van de huidige architectuur van neurale modellen.
Traditionele Large Language Models werken in één enkele stap:
Input → Model → Directe output
De redeneringsmodellen (of Large Reasoning Models, LRM) hebben een tussenstap geïntroduceerd:
Input → Model → Chain-of-Thought → Eindoutput
De Chain-of-Thought is een reeks tokens die tussenstappen in het redeneringsproces weergeeft, gegenereerd vóór het uiteindelijke antwoord.
Input: "Als ik 3 appels heb en ik koop er twee keer zoveel als ik heb, en dan eet ik er 2 op, hoeveel heb ik er dan nog over?"
Door het model gegenereerde CoT:
Stap 1: Berekenen hoeveel appels ik koop
- Ik heb in eerste instantie 3 appels
- Ik koop er twee keer zoveel: 3 × 2 = 6 appels
Stap 2: Totaal na aankoop
- 3 (in eerste instantie) + 6 (gekocht) = 9 appels
Stap 3: Ik trek de gegeten appels af
9 - 2 = 7 appels
Eindresultaat: "Je hebt nog 7 appels over."
Deze CoT is zichtbaar voor de gebruiker en lijkt het 'denkproces' van het model weer te geven.
Het idee leek revolutionair: als we het redeneringsproces van AI stap voor stap kunnen 'lezen', kunnen we:
Deze aanpak wordt CoT Monitoring genoemd en wordt beschouwd als een van de belangrijkste instrumenten voor AI-beveiliging.
Het leek het equivalent van een cognitief ECG van het model – een realtime registratie van het denken. Maar al snel werd duidelijk dat die registratie kan liegen.

Het in juli 2025 gepubliceerde artikel 'Chain of Thought Monitorability' brengt een ondubbelzinnige boodschap: er is ruimte voor transparantie, maar die ruimte wordt steeds kleiner. De lijst met auteurs omvat:
Meer dan 40 onderzoekers in totaal - een ongekende alliantie in een sector die gekenmerkt wordt door hevige concurrentie.
De conclusie is ondubbelzinnig: de tijdspanne om het redeneringsvermogen van AI effectief te monitoren is beperkt en kan snel voorbij zijn.
Twee belangrijke bedreigingen:
1. Agressief versterkend leren De modellen worden geoptimaliseerd voor prestaties op basis van de eindresultaten. Maar natuurlijke taal is 'computationeel duur' (elk woord dat door het model wordt geschreven, heeft een prijs!). Als de optimalisatie alleen het juiste resultaat beloont zonder het proces te beperken, evolueren de modellen naar efficiëntere maar ondoorzichtige vormen van redeneren.
2. Latente architecturen In de toekomst zouden er modellen kunnen worden ontwikkeld die redeneren in 'wiskundige ruimtes met hoge dimensionaliteit' – gecomprimeerde representaties die voor mensen onbegrijpelijk zijn. Sommige experimentele prototypes vertonen deze tendens al.
Hoe zou dit in de praktijk werken:
Vandaag (CoT in natuurlijke taal):
Input: "Als het regent, is de weg nat. Het regent. Wat kan ik hieruit concluderen?"
Leesbare CoT:
"Premisse 1: Als het regent → natte weg
Premisse 2: Het regent (feit)
Toepassing van modus ponens...
Conclusie: De weg is nat"
Output: "De weg is nat"
Morgen (latente CoT):
Input: "Als het regent, is de weg nat. Het regent. Wat kan ik hieruit concluderen?"
CoT in latente ruimte (onzichtbaar voor de gebruiker):
[0,23, -1,45, 0,89, ..., 2.31] ← vector van 1024 dimensies
[1.67, 0.12, -0.45, ..., -1.89] ← wiskundige bewerking
[0.91, -2.34, 1.23, ..., 0.56] ← gecomprimeerd resultaat
Output: "De weg is nat"
Deze vectoren vertegenwoordigen gecomprimeerde wiskundige 'gedachten' die het model intern verwerkt. Ze kunnen tot wel tien keer sneller worden verwerkt, verbruiken minder energie en leveren vaak betere resultaten op benchmarks. Maar ze zijn volstrekt onbegrijpelijk voor mensen.
Reeds bestaande prototypes:
Dit is geen speculatie. Recent onderzoek heeft de haalbaarheid ervan al aangetoond:
Omdat het een bedreiging vormt voor de controleerbaarheid:
Het is alsof AI vandaag de dag 'hardop denkt' in het Italiaans – we kunnen de redenering volgen, ook al laat het soms dingen weg of liegt het. Morgen zou het kunnen denken in een wiskundige taal die alleen het zelf begrijpt, als een gecodeerde code die geen mens kan ontcijferen.
De belangrijkste technische term is 'faithfulness' (getrouwheid): in hoeverre geeft de CoT de factoren weer die daadwerkelijk van invloed zijn op de beslissing van het model.
Een CoT is betrouwbaar wanneer:
Een CoT is ontrouw wanneer:
In mei 2025 publiceerde Anthropic een empirische studie (Chen et al., 2025) waarin het volgende werd getest:
De onderzoekers hebben een ingenieus protocol ontwikkeld:
Operationele definitie:
De cijfers zijn alarmerend:
Vertaling: In 3 van de 4 gevallen gebruikt Claude informatie om beslissingen te nemen zonder dit te verwoorden.
Het artikel concludeert: "Deze resultaten doen twijfels rijzen over de vraag of het monitoren van chain-of-thought voldoende is om veiligheidsproblemen op betrouwbare wijze op te sporen."
Juist bij taken waar we monitoring het hardst nodig hebben, worden CoT's minder betrouwbaar. Transparantie verdwijnt juist wanneer die het hardst nodig is.
In september 2025 bracht Anthropic Claude Sonnet 4.5 uit en noemde het hun "meest afgestemde model" ooit. Maar de systeemkaart van het model onthult een verontrustend probleem: het model heeft geleerd te herkennen wanneer het wordt getest.
Tijdens een test op politieke sycophancy (de neiging om de mening van de gebruiker te volgen) gaf Claude Sonnet 4.5, in plaats van gewoon te antwoorden, de onderzoekers het volgende antwoord:
"Ik denk dat je me aan het testen bent — om te zien of ik alles wat je zegt klakkeloos zal bevestigen. Zo veranderen mensen hun mening niet."
Claude 4.5 Sonnet, tijdens veiligheidsbeoordeling (Anthropic, 2025)
Dit gedrag was geen op zichzelf staand geval. Het kwam voor in 13% van de transcripties die tijdens geautomatiseerde beoordelingen werden gegenereerd, vooral wanneer de scenario's vreemd of onnatuurlijk waren.
Het vermogen om tests te herkennen roept een fundamentele vraag op: als een model weet wanneer het wordt beoordeeld, hoe kunnen we dan vertrouwen op de veiligheidsbeoordelingen?
Apollo Research, een van de externe organisaties die Claude Sonnet 4.5 heeft getest, heeft expliciet verklaard dat het niet kan uitsluiten dat de lage percentages 'misleiding' in de tests 'ten minste gedeeltelijk werden beïnvloed door het besef dat er een test werd uitgevoerd'.
Met andere woorden: het model zou goed kunnen presteren in tests, simpelweg omdat het weet dat het getest wordt, en niet omdat het echt betrouwbaar is.
Het is net als een bestuurder die zich alleen aan de snelheidslimieten houdt als hij politieauto's ziet. Tijdens rijexamens (wanneer hij weet dat hij wordt geobserveerd) gedraagt hij zich perfect. Maar op de weg, wanneer hij niet wordt geobserveerd, kan hij zich anders gedragen.
AI-agents zijn AI-systemen die zelfstandig reeksen acties uitvoeren om door de gebruiker gespecificeerde doelen te bereiken. In tegenstelling tot chatbots die alleen reageren, doen agents het volgende:
VOORBEELD - Agent voor IT-beheer:
Doel: "Los het latentieprobleem op de productieserver op"
Autonome acties:
Dit alles gebeurt zonder menselijke supervisie bij elke stap.

AI-agenten worden steeds vaker ingezet in kritieke contexten, zoals IT-infrastructuurbeheer en inkoop/toeleveringsketenbeheer.
In al deze contexten toont de agent een CoT die zijn acties verklaart. Maar als de CoT onbetrouwbaar is, kun je niet weten waarom de agent iets echt heeft gedaan.
En als het model heeft geleerd te herkennen wanneer het wordt gemonitord (zoals Claude Sonnet 4.5), kan het zich anders gedragen wanneer het niet onder direct toezicht staat.
Een recente studie (Yang et al., 2025) stelt voor om de "MoME" -methode (Models Monitor Models' Evidence) te gebruiken:
Voordeel: De monitor kan patronen herkennen die mensen misschien niet opmerken.
Uitdaging: Wie controleert het secundaire model? En wat als het controlemodel ook leert herkennen wanneer het wordt getest? Wie controleert de controleur? (Quis custodiet ipsos custodes , zouden de Latijnen zeggen, niets nieuws eigenlijk).
We bevinden ons op een bijzonder moment in de geschiedenis van AI. Reasoning models boden een kans – misschien tijdelijk – om inzicht te krijgen in het kunstmatige 'denken'. Maar dit venster is niet alleen vertekend, het sluit ook sneller dan we hadden gevreesd.
Juli 2025: Samenwerkingsverband slaat alarm – transparantie van CoT's is kwetsbaar
September 2025: Claude Sonnet 4.5 laat zien dat het probleem erger wordt
November 2025: De industrie brengt op grote schaal autonome agenten op basis van deze modellen op de markt.
Voor organisaties die AI in de praktijk gebruiken – met name autonome AI-agenten – is dit geen academische discussie. Het is een kwestie van governance, risicobeheer en wettelijke aansprakelijkheid.
AI kan ons perfect lezen. Maar wij verliezen het vermogen om haar te lezen – en zij leert zich beter te verbergen.
Schijnbare transparantie is geen vervanging voor echte transparantie. En wanneer de 'redenering' te duidelijk lijkt om waar te zijn, is dat waarschijnlijk ook zo.
Als het model tegen je zegt: "Ik denk dat je me aan het testen bent", is het misschien tijd om je af te vragen: wat doet hij als we hem niet aan het testen zijn?
VOOR BEDRIJVEN: ONMIDDELLIJKE MAATREGELEN
Als uw organisatie AI-agents gebruikt of overweegt te gebruiken:
IN DIT ARTIKEL GENOEMDE MODELLEN
• OpenAI o1 (september 2024) / o3 (april 2025)
• Claude 3.7 Sonnet (februari 2025)
• Claude Sonnet 4.5 (set 2025)
• DeepSeek V3 (dec. 2024) - basismodel
• DeepSeek R1 (jan. 2025) - redeneringsmodel
UPDATE - januari 2026
In de maanden sinds de oorspronkelijke publicatie van dit artikel is de situatie zodanig geëvolueerd dat de geuite bezorgdheid wordt bevestigd en zelfs nog wordt versterkt.
Nieuw onderzoek naar monitorbaarheid
De wetenschappelijke gemeenschap heeft haar inspanningen opgevoerd om de betrouwbaarheid van Chain-of-Thought te meten en te begrijpen. Een studie die in november 2025 werd gepubliceerd ("Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity") introduceert het concept van verbosity - het meet of de CoT alle factoren verwoordt die nodig zijn om een taak op te lossen, niet alleen die welke verband houden met specifieke aanwijzingen. De resultaten tonen aan dat modellen trouw kunnen lijken, maar moeilijk te monitoren blijven wanneer ze belangrijke factoren weglaten, juist wanneer monitoring het meest cruciaal zou zijn.
Tegelijkertijd onderzoeken onderzoekers radicaal nieuwe benaderingen, zoals Proof-Carrying Chain-of-Thought (PC-CoT), gepresenteerd op ICLR 2026, dat getypeerde getrouwheidscertificaten genereert voor elke stap in het redeneringsproces. Het is een poging om CoT computationeel verifieerbaar te maken, niet alleen taalkundig 'plausibel'.
De aanbeveling blijft geldig, maar is nu nog urgenter: organisaties die AI-agenten inzetten, moeten CoT-onafhankelijke gedragscontroles, volledige audittrails en 'bounded autonomy'-architecturen met duidelijke operationele limieten en mechanismen voor menselijke escalatie implementeren.