Newsletter

Waarom wiskunde moeilijk is (zelfs als je een AI bent)

Taalmodellen weten niet hoe ze resultaten moeten onthouden zoals wij pi onthouden, maar dat maakt ze nog geen wiskundigen. Het probleem is structureel: ze leren door statistische gelijkenis, niet door algoritmisch begrip. Zelfs de nieuwe 'redeneringsmodellen' zoals o1 falen bij triviale taken: het telt de 'r' in 'aardbei' correct na enkele seconden verwerking, maar faalt wanneer het een paragraaf moet schrijven waarin de tweede letter van elke zin een woord vormt. De premium versie van 200 dollar per maand heeft vier minuten nodig om op te lossen wat een kind direct doet. DeepSeek en Mistral in 2025 tellen nog steeds letters verkeerd. De opkomende oplossing? Hybride aanpak: de slimste modellen hebben uitgevonden wanneer ze een echte rekenmachine moeten bellen in plaats van zelf de berekening uit te voeren. Paradigmaverschuiving: AI hoeft niet te weten hoe ze alles moet doen, maar moet de juiste hulpmiddelen orkestreren. Laatste paradox: GPT-4 kan je briljant de limiettheorie uitleggen, maar krijgt vermenigvuldigingen fout die een zakrekenmachine altijd correct oplost. Voor wiskundeonderwijs zijn ze uitstekend: uitleggen met oneindig geduld, voorbeelden aanpassen, complexe redeneringen afbreken. Voor nauwkeurige berekeningen? Vertrouw op de rekenmachine, niet op kunstmatige intelligentie.

Velen vertrouwen op LLM ook om wiskundige bewerkingen uit te voeren. Deze aanpak werkt niet.

Het probleem is eigenlijk simpel: grote taalmodellen (LLM) weten niet echt hoe ze moeten vermenigvuldigen. Soms hebben ze de uitkomst goed, net zoals ik de waarde van pi uit mijn hoofd ken. Maar dit betekent niet dat ik een wiskundige ben, noch dat LLM's echt weten hoe ze moeten rekenen.

Praktisch voorbeeld

Voorbeeld: 49858 *59949 = 298896167242 Dit resultaat is altijd hetzelfde, er is geen middenweg. Het is goed of fout.

Zelfs met enorme wiskundige training slagen de beste modellen er maar in om een deel van de bewerkingen correct op te lossen. Een eenvoudige zakrekenmachine daarentegen krijgt 100% van de resultaten correct, altijd. En hoe groter de getallen worden, hoe slechter de prestaties van LLM's.

Is het mogelijk om dit probleem op te lossen?

Het basisprobleem is dat deze modellen leren door gelijkenis, niet door begrip. Ze werken het beste met problemen die lijken op de problemen waarop ze getraind zijn, maar ze ontwikkelen nooit een echt begrip van wat ze zeggen.

Voor degenen die meer willen weten, raad ik dit artikel aan over "hoe een LLM werkt".

Een rekenmachine daarentegen gebruikt een nauwkeurig algoritme dat geprogrammeerd is om de wiskundige bewerking uit te voeren.

Daarom moeten we nooit volledig vertrouwen op LLM's voor wiskundige berekeningen: zelfs onder de beste omstandigheden, met enorme hoeveelheden specifieke trainingsgegevens, kunnen ze geen betrouwbaarheid garanderen, zelfs niet bij de meest basale bewerkingen. Een hybride aanpak zou kunnen werken, maar LLM's alleen zijn niet genoeg. Misschien wordt deze aanpak gevolgd voor het oplossen van het zogenaamde'aardbeienprobleem'.

Toepassingen van LLM's in de studie van wiskunde

In de onderwijscontext kunnen LLM's fungeren als gepersonaliseerde begeleiders, die de uitleg kunnen aanpassen aan het begripsniveau van de student. Wanneer een student bijvoorbeeld wordt geconfronteerd met een differentiaalrekeningprobleem, kan de LLM de redenering opsplitsen in eenvoudigere stappen en gedetailleerde uitleg geven bij elke stap van het oplossingsproces. Deze aanpak helpt bij het opbouwen van een solide begrip van fundamentele concepten.

Een bijzonder interessant aspect is het vermogen van LLM's om relevante en gevarieerde voorbeelden te genereren. Als een leerling het concept van een limiet probeert te begrijpen, kan de LLM verschillende wiskundige scenario's presenteren, beginnend met eenvoudige gevallen en overgaand in complexere situaties, waardoor een progressief begrip van het concept mogelijk wordt.

Een veelbelovende toepassing is het gebruik van LLM voor de vertaling van complexe wiskundige concepten naar meer toegankelijke natuurlijke taal. Dit vergemakkelijkt de communicatie van wiskunde met een breder publiek en kan helpen de traditionele barrière voor toegang tot dit vakgebied te overwinnen.

LLM's kunnen ook helpen bij de voorbereiding van lesmateriaal, door oefeningen met verschillende moeilijkheidsgraden te genereren en gedetailleerde feedback te geven over de voorgestelde oplossingen van leerlingen. Zo kunnen docenten het leertraject van hun studenten beter aanpassen.

Het echte voordeel

Meer in het algemeen moet ook worden gedacht aan het extreme 'geduld' om zelfs de minst 'bekwame' leerling te helpen leren: in dit geval helpt de afwezigheid van emoties. Desondanks verliest zelfs de ai soms 'zijn geduld'. Zie dit 'grappige' voorbeeld.

Update 2025: Redeneermodellen en de hybride benadering

2024-2025 bracht significante ontwikkelingen met de komst van zogenaamde 'redeneermodellen' zoals OpenAI o1 en deepseek R1. Deze modellen hebben indrukwekkende resultaten behaald op wiskundige benchmarks: o1 lost 83% van de problemen in de Internationale Wiskunde Olympiade correct op, vergeleken met 13% voor GPT-4o. Maar let op: ze hebben het hierboven beschreven fundamentele probleem niet opgelost.

Het aardbei probleem - het tellen van de 'r' in "aardbei" - illustreert perfect de hardnekkige beperking. o1 lost het correct op na een paar seconden "redeneren", maar als je het vraagt om een paragraaf te schrijven waar de tweede letter van elke zin het woord "CODE" vormt, faalt het. o1-pro, de $200/maand versie, lost het op... na 4 minuten verwerking. DeepSeek R1 en andere recente modellen hebben de basistelling nog steeds fout. In februari 2025 bleef Mistral antwoorden dat er maar twee 'r's in 'aardbei' zitten.

De truc die in opkomst is, is de hybride aanpak: wanneer ze 49858 met 5994949 moeten vermenigvuldigen, proberen de meer geavanceerde modellen niet langer het resultaat te 'raden' op basis van overeenkomsten met berekeningen die ze tijdens de training hebben gezien. In plaats daarvan roepen ze een rekenmachine aan of voeren ze Python-code uit - precies zoals een intelligent mens die weet wat zijn of haar grenzen zijn zou doen.

Dit 'gebruik van hulpmiddelen' vertegenwoordigt een paradigmaverschuiving: kunstmatige intelligentie hoeft niet alles zelf te kunnen, maar moet de juiste hulpmiddelen kunnen orkestreren. Redeneermodellen combineren linguïstisch vermogen om het probleem te begrijpen, stapsgewijs redeneren om de oplossing te plannen en delegatie naar gespecialiseerde hulpmiddelen (rekenmachines, Python-interpreters, databases) voor precieze uitvoering.

De les? De LLM's van 2025 zijn nuttiger in wiskunde, niet omdatze hebben 'geleerd' om te vermenigvuldigen - ze hebben het nog niet echt gedaan - maar omdat sommigen van hen zijn gaan begrijpen wanneer ze vermenigvuldiging moeten delegeren aan degenen die het echt kunnen. Het basisprobleem blijft: ze werken op basis van statistische gelijkenis, niet op basis van algoritmisch begrip. Een rekenmachine van 5 euro blijft oneindig veel betrouwbaarder voor nauwkeurige berekeningen.

Hulpmiddelen voor bedrijfsgroei

9 november 2025

AI-regelgeving voor consumententoepassingen: hoe u zich kunt voorbereiden op de nieuwe regelgeving voor 2025

2025 markeert het einde van het 'Wilde Westen'-tijdperk van AI: AI Act EU operationeel vanaf augustus 2024 met AI-geletterdheidsverplichtingen vanaf 2 februari 2025, governance en GPAI vanaf 2 augustus. Californië loopt voorop met SB 243 (ontstaan na zelfmoord van Sewell Setzer, 14-jarige ontwikkelde emotionele relatie met chatbot) met een verbod op dwangmatige beloningssystemen, detectie van zelfmoordgedachten, elke 3 uur een herinnering 'ik ben geen mens', onafhankelijke openbare audits, boetes van 1000 dollar per overtreding. SB 420 vereist effectbeoordelingen voor 'geautomatiseerde beslissingen met een hoog risico' met het recht om in beroep te gaan tegen menselijke beoordeling. Echte handhaving: Noom haalde 2022 aan voor bots die zich voordeden als menselijke coaches, schikking $ 56 miljoen. Nationale trend: Alabama, Hawaii, Illinois, Maine, Massachusetts classificeren het niet aanmelden van AI-chatbots als schending van de UDAP. Drietrapsbenadering van risicokritieke systemen (gezondheidszorg/transport/energie): certificering vóór ingebruikname, transparante informatieverstrekking aan de consument, registratie voor algemene doeleinden en veiligheidstests. Lappendeken van regelgeving zonder federale pre-emption: bedrijven in meerdere staten moeten navigeren door verschillende vereisten. EU vanaf augustus 2026: gebruikers informeren over AI-interactie tenzij duidelijk, AI-gegenereerde inhoud gelabeld als machineleesbaar.
9 november 2025

Reguleren wat niet gemaakt wordt: riskeert Europa technologische irrelevantie?

Europa trekt slechts een tiende van de wereldwijde investeringen in kunstmatige intelligentie aan, maar beweert wel de wereldwijde regels te dicteren. Dit is het 'Brussels Effect' - regels opleggen op wereldschaal door middel van marktmacht zonder innovatie aan te jagen. De AI-wet wordt van kracht op een gespreid tijdschema tot 2027, maar multinationale technologiebedrijven reageren met creatieve ontwijkingsstrategieën: bedrijfsgeheimen inroepen om trainingsgegevens niet te hoeven onthullen, technisch conforme maar onbegrijpelijke samenvattingen produceren, zelfbeoordeling gebruiken om systemen te degraderen van 'hoog risico' naar 'minimaal risico', forumshoppen door te kiezen voor lidstaten met minder strenge controles. De paradox van extraterritoriaal auteursrecht: de EU eist dat OpenAI de Europese wetten naleeft, zelfs voor trainingen buiten Europa - een principe dat nog nooit eerder is voorgekomen in het internationaal recht. Het 'duale model' ontstaat: beperkte Europese versies versus geavanceerde wereldwijde versies van dezelfde AI-producten. Reëel risico: Europa wordt een 'digitaal fort', geïsoleerd van wereldwijde innovatie, met Europese burgers die toegang hebben tot inferieure technologieën. Het Hof van Justitie heeft in de kredietscoringszaak de verdediging tegen 'bedrijfsgeheimen' al verworpen, maar de interpretatieve onzekerheid blijft enorm - wat betekent 'voldoende gedetailleerde samenvatting' precies? Niemand weet het. Laatste onbeantwoorde vraag: creëert de EU een ethische derde weg tussen het Amerikaanse kapitalisme en de Chinese staatscontrole, of exporteert ze gewoon bureaucratie naar een gebied waar ze niet concurreert? Voor nu: wereldleider in AI-regulering, marginaal in de ontwikkeling ervan. Uitgebreid programma.
9 november 2025

Outliers: waar gegevenswetenschap en succesverhalen elkaar ontmoeten

Datawetenschap heeft het paradigma op zijn kop gezet: uitbijters zijn niet langer 'fouten die geëlimineerd moeten worden', maar waardevolle informatie die begrepen moet worden. Een enkele uitschieter kan een lineair regressiemodel volledig verstoren - de helling veranderen van 2 naar 10 - maar als je die uitschieter elimineert, kan dat betekenen dat je het belangrijkste signaal in de dataset kwijtraakt. Machine learning introduceert geavanceerde hulpmiddelen: Isolation Forest isoleert uitschieters door willekeurige beslisbomen te bouwen, Local Outlier Factor analyseert de lokale dichtheid, Autoencoders reconstrueren normale gegevens en rapporteren wat ze niet kunnen reproduceren. Er zijn globale uitschieters (temperatuur -10°C in de tropen), contextuele uitschieters (€1.000 uitgeven in een arme buurt), collectieve uitschieters (gesynchroniseerde pieken in het netwerkverkeer die wijzen op een aanval). Parallel met Gladwell: de '10.000 uur-regel' wordt betwist-Paul McCartney dixit 'veel bands hebben 10.000 uur in Hamburg gedaan zonder succes, theorie niet onfeilbaar'. Aziatisch wiskundig succes is niet genetisch maar cultureel: Chinees numeriek systeem intuïtiever, rijstteelt vereist constante verbetering vs. Westerse landbouw territoriale expansie. Echte toepassingen: Britse banken kunnen 18% potentiële verliezen terugwinnen via real-time detectie van anomalieën, productieprocessen detecteren microscopische defecten die menselijke inspecties zouden missen, gezondheidszorg valideert klinische onderzoeksgegevens met meer dan 85% gevoeligheid voor detectie van anomalieën. Laatste les: naarmate datawetenschap verschuift van het elimineren van uitschieters naar het begrijpen ervan, moeten we onconventionele carrières niet zien als anomalieën die moeten worden gecorrigeerd, maar als waardevolle trajecten die moeten worden bestudeerd.