Newsletter

De illusie van redeneren: het debat dat de AI-wereld op zijn grondvesten doet schudden

Apple publiceert twee vernietigende artikelen - 'GSM-Symbolic' (oktober 2024) en 'The Illusion of Thinking' (juni 2025) - die aantonen hoe LLM faalt op kleine variaties van klassieke problemen (Toren van Hanoi, rivieroversteek): 'prestaties nemen af wanneer alleen numerieke waarden worden veranderd'. Nul succes bij complexe Toren van Hanoi. Maar Alex Lawsen (Open Philanthropy) antwoordt met "The Illusion of Thinking", waarin hij een falende methodologie demonstreert: mislukkingen waren limieten aan de uitvoer van tokens, geen ineenstorting van redeneringen, automatische scripts classificeerden gedeeltelijk correcte uitvoer verkeerd, sommige puzzels waren wiskundig onoplosbaar. Door tests te herhalen met recursieve functies in plaats van zetten op te sommen, losten Claude/Gemini/GPT de Toren van Hanoi 15 records op. Gary Marcus omarmt Apple-these over 'distributieverschuiving', maar pre-WWDC timing paper roept strategische vragen op. Zakelijke implicaties: hoeveel vertrouwen in AI voor kritieke taken? Oplossing: neurosymbolische benaderingen neurale netwerken voor patroonherkenning+taal, symbolische systemen voor formele logica. Voorbeeld: AI boekhouding begrijpt "hoeveel reiskosten?" maar SQL/berekeningen/belastingcontroles = deterministische code.
Fabio Lauria
Ceo & Oprichter van Electe‍
Wanneer AI-redeneren de realiteit ontmoet: de robot past de logische regel correct toe, maar identificeert de basketbal als een sinaasappel. Een perfecte metafoor voor hoe LLM's logische processen kunnen simuleren zonder echt inzicht te hebben.

De afgelopen maanden is er in de wereld van kunstmatige intelligentie een verhit debat ontstaan naar aanleiding van twee invloedrijke onderzoekspublicaties van Apple. Het eerste, GSM-Symbolic (oktober 2024) en het tweede, De illusie van denken (juni 2025), zetten vraagtekens bij de vermeende redeneercapaciteiten van Large Language Models en veroorzaakten gemengde reacties binnen de industrie.

Zoals al geanalyseerd in ons vorige artikel over "De illusie van vooruitgang: het simuleren van algemene kunstmatige intelligentie zonder het te bereiken".raakt de kwestie van kunstmatig redeneren de kern van wat we beschouwen als intelligentie in machines.

Wat Apple zegt

Onderzoekers van Apple voerden een systematische analyse uit op Large Reasoning Models (LRM) - modellen die gedetailleerde redeneersporen genereren voordat ze een antwoord geven. De resultaten waren verrassend en, voor velen, alarmerend.

Uitgevoerde tests

Het onderzoek onderwierp de meest geavanceerde modellen aan klassieke algoritmische puzzels zoals:

  • Toren van Hanoi: een wiskundige puzzel voor het eerst opgelost in 1957
  • Oversteken van rivieren: logische puzzels met specifieke beperkingen
  • GSM-Symbolische Benchmark: Variaties van wiskundige problemen op basisschoolniveau

Redeneren testen met klassieke puzzels: het probleem van de boer, de wolf, de geit en de kool is een van de logische puzzels die gebruikt worden in Apple's studies om het redeneervermogen van LLM's te beoordelen. De moeilijkheid ligt in het vinden van de juiste volgorde van kruisingen terwijl voorkomen wordt dat de wolf de geit opeet of dat de geit de kool opeet als hij alleen gelaten wordt. Een eenvoudige maar effectieve test om onderscheid te maken tussen algoritmisch begrip en het onthouden van patronen.

Controversiële resultaten

De resultaten toonden aan dat zelfs kleine veranderingen in de probleemformulering leiden tot significante variaties in prestaties, wat wijst op een zorgwekkende kwetsbaarheid in redeneren. Zoals gemeld in AppleInsider"de prestaties van alle modellen nemen af wanneer alleen de numerieke waarden in de GSM-Symbolic benchmarkvragen worden gewijzigd".

Het tegenoffensief: de illusie van denken

De reactie van de AI-gemeenschap liet niet lang op zich wachten. Alex Lawsen van Open Philanthropy, in samenwerking met Claude Opus van Anthropic, publiceerde een gedetailleerd weerwoord met de titel "De illusie van denken.waarin de methodologie en conclusies van het Apple onderzoek worden aangevochten.

De belangrijkste bezwaren

  1. Uitgangslimieten genegeerd: Veel mislukkingen die werden toegeschreven aan 'ineenstorting van de redenering' waren in werkelijkheid te wijten aan modeluitgangslimieten.
  2. Onjuiste evaluatie: automatische scripts classificeerden ook gedeeltelijke maar algoritmisch correcte uitvoer als totale mislukking.
  3. Onmogelijke problemen: Sommige puzzels waren wiskundig onoplosbaar, maar modellen werden gestraft voor het niet oplossen ervan.

Bevestigingstesten

Toen Lawsen de tests herhaalde met alternatieve methodes - door de modellen te vragen recursieve functies te genereren in plaats van alle zetten op te sommen - waren de resultaten dramatisch anders. Modellen als Claude, Gemini en GPT losten Toren van Hanoi problemen met 15 records correct op, ver voorbij de complexiteit waarbij Apple nul successen rapporteerde.

Gezaghebbende stemmen in het debat

Gary Marcus: de historische criticus

Gary Marcuseen lange tijd criticus van de redeneervaardigheden van LLM's, omarmde de bevindingen van Apple als een bevestiging van zijn 20-jarige thesis. Volgens Marcus blijven LLM's worstelen met 'distributieverschuiving' - het vermogen om te generaliseren buiten de trainingsgegevens om - terwijl ze 'goede oplossers blijven van problemen die al zijn opgelost'.

De LocalLlama Gemeenschap

De discussie heeft zich ook verspreid naar gespecialiseerde gemeenschappen zoals LocalLlama op Redditwaar ontwikkelaars en onderzoekers debatteren over de praktische implicaties voor open-source modellen en lokale implementatie.

De controverse voorbij: wat betekent dit voor bedrijven?

Strategische implicaties

Dit debat is niet louter academisch. Het heeft directe gevolgen voor:

  • AI-inzet in productie: In hoeverre kunnen we modellen vertrouwen voor kritieke taken?
  • R&D-investeringen: Waar moeten we onze middelen op richten voor de volgende doorbraak?
  • Communicatie met belanghebbenden: Hoe realistische verwachtingen van AI-capaciteiten managen?

De neurosymbolische weg

Zoals benadrukt in verschillende technische inzichtenis er een toenemende behoefte aan hybride benaderingen die:

  • Neurale netwerken voor patroonherkenning en taalbegrip
  • Symbolische systemen voor algoritmisch redeneren en formele logica

Triviaal voorbeeld: een AI-assistent die helpt met boekhouden. Het taalmodel begrijpt wanneer je vraagt "hoeveel heb ik deze maand uitgegeven aan reizen?" en haalt de relevante parameters eruit (categorie: reizen, periode: deze maand). Maar de SQL-query die de database bevraagt, de som berekent en de fiscale beperkingen controleert? Dat wordt gedaan door deterministische code, niet door het neurale model.

Timing en strategische context

Het is waarnemers niet ontgaan dat het Apple-paper kort voor WWDC werd gepubliceerd, wat vragen oproept over de strategische beweegredenen. Zoals deanalyse van 9to5Mac"De timing van de Apple paper - vlak voor WWDC - deed een paar wenkbrauwen fronsen. Was dit een mijlpaal in het onderzoek of een strategische zet om Apple opnieuw te positioneren in het bredere AI-landschap?"

Lessen voor de toekomst

Voor onderzoekers

  • Experimenteel ontwerp: Het belang van onderscheid maken tussen architecturale beperkingen en implementatiebeperkingen
  • Strenge evaluatie: de behoefte aan geavanceerde benchmarks die cognitieve capaciteiten scheiden van praktische beperkingen
  • Methodologische transparantie: de verplichting om experimentele opzet en beperkingen volledig te documenteren

Voor bedrijven

  • Realistische verwachtingen: huidige grenzen erkennen zonder toekomstig potentieel op te geven
  • Hybride benaderingen: investeren in oplossingen die de sterke punten van verschillende technologieën combineren
  • Continue evaluatie: testsystemen implementeren die realistische gebruiksscenario's weerspiegelen

Conclusies: Navigeren door onzekerheid

Het debat dat op gang is gebracht door de documenten van Apple herinnert ons eraan dat we nog maar aan het begin staan van het begrijpen van kunstmatige intelligentie. Zoals aangegeven in ons vorig artikelblijft het onderscheid tussen simulatie en authentiek redeneren een van de meest complexe uitdagingen van onze tijd.

De echte les is niet of LLM's al dan niet kunnen 'redeneren' in de menselijke betekenis van het woord, maar eerder hoe we systemen kunnen bouwen die hun sterke punten uitbuiten en tegelijkertijd hun beperkingen compenseren. In een wereld waarin AI al hele sectoren transformeert, is de vraag niet langer of deze hulpmiddelen 'slim' zijn, maar hoe we ze effectief en verantwoord kunnen gebruiken.

De toekomst van ondernemings-AI ligt waarschijnlijk niet in één revolutionaire benadering, maar in de intelligente orkestratie van verschillende complementaire technologieën. En in dit scenario wordt het vermogen om de mogelijkheden van onze tools kritisch en eerlijk te evalueren zelf een concurrentievoordeel.

Voor inzicht in de AI-strategie van je organisatie en de implementatie van robuuste oplossingen is ons team van experts beschikbaar voor consultaties op maat.

Bronnen en referenties:

Hulpmiddelen voor bedrijfsgroei

9 november 2025

AI-regelgeving voor consumententoepassingen: hoe u zich kunt voorbereiden op de nieuwe regelgeving voor 2025

2025 markeert het einde van het 'Wilde Westen'-tijdperk van AI: AI Act EU operationeel vanaf augustus 2024 met AI-geletterdheidsverplichtingen vanaf 2 februari 2025, governance en GPAI vanaf 2 augustus. Californië loopt voorop met SB 243 (ontstaan na zelfmoord van Sewell Setzer, 14-jarige ontwikkelde emotionele relatie met chatbot) met een verbod op dwangmatige beloningssystemen, detectie van zelfmoordgedachten, elke 3 uur een herinnering 'ik ben geen mens', onafhankelijke openbare audits, boetes van 1000 dollar per overtreding. SB 420 vereist effectbeoordelingen voor 'geautomatiseerde beslissingen met een hoog risico' met het recht om in beroep te gaan tegen menselijke beoordeling. Echte handhaving: Noom haalde 2022 aan voor bots die zich voordeden als menselijke coaches, schikking $ 56 miljoen. Nationale trend: Alabama, Hawaii, Illinois, Maine, Massachusetts classificeren het niet aanmelden van AI-chatbots als schending van de UDAP. Drietrapsbenadering van risicokritieke systemen (gezondheidszorg/transport/energie): certificering vóór ingebruikname, transparante informatieverstrekking aan de consument, registratie voor algemene doeleinden en veiligheidstests. Lappendeken van regelgeving zonder federale pre-emption: bedrijven in meerdere staten moeten navigeren door verschillende vereisten. EU vanaf augustus 2026: gebruikers informeren over AI-interactie tenzij duidelijk, AI-gegenereerde inhoud gelabeld als machineleesbaar.
9 november 2025

Reguleren wat niet gemaakt wordt: riskeert Europa technologische irrelevantie?

**TITEL: European AI Act - The Paradox of Who Regulates What Doesn't Develop** **Samenvatting:** Europa trekt slechts een tiende van de wereldwijde investeringen in kunstmatige intelligentie aan, maar beweert de wereldwijde regels te dicteren. Dit is het "Brussels Effect" - het opleggen van regels op wereldschaal door middel van marktmacht zonder innovatie te stimuleren. De AI-wet wordt van kracht op een gespreid tijdschema tot 2027, maar multinationale technologiebedrijven reageren met creatieve ontwijkingsstrategieën: bedrijfsgeheimen inroepen om trainingsgegevens niet te hoeven onthullen, technisch conforme maar onbegrijpelijke samenvattingen produceren, zelfbeoordeling gebruiken om systemen te degraderen van 'hoog risico' naar 'minimaal risico', forumshoppen door te kiezen voor lidstaten met minder strenge controles. De paradox van extraterritoriaal auteursrecht: de EU eist dat OpenAI de Europese wetten naleeft, zelfs voor trainingen buiten Europa - een principe dat nog nooit eerder is voorgekomen in het internationaal recht. Het 'duale model' ontstaat: beperkte Europese versies versus geavanceerde wereldwijde versies van dezelfde AI-producten. Reëel risico: Europa wordt een 'digitaal fort', geïsoleerd van wereldwijde innovatie, met Europese burgers die toegang hebben tot inferieure technologieën. Het Hof van Justitie heeft in de kredietscoringszaak de verdediging tegen 'bedrijfsgeheimen' al verworpen, maar de interpretatieve onzekerheid blijft enorm - wat betekent 'voldoende gedetailleerde samenvatting' precies? Niemand weet het. Laatste onbeantwoorde vraag: creëert de EU een ethische derde weg tussen het Amerikaanse kapitalisme en de Chinese staatscontrole, of exporteert ze gewoon bureaucratie naar een gebied waar ze niet concurreert? Voor nu: wereldleider in AI-regulering, marginaal in de ontwikkeling ervan. Uitgebreid programma.
9 november 2025

Outliers: waar gegevenswetenschap en succesverhalen elkaar ontmoeten

Datawetenschap heeft het paradigma op zijn kop gezet: uitbijters zijn niet langer 'fouten die geëlimineerd moeten worden', maar waardevolle informatie die begrepen moet worden. Een enkele uitschieter kan een lineair regressiemodel volledig verstoren - de helling veranderen van 2 naar 10 - maar als je die uitschieter elimineert, kan dat betekenen dat je het belangrijkste signaal in de dataset kwijtraakt. Machine learning introduceert geavanceerde hulpmiddelen: Isolation Forest isoleert uitschieters door willekeurige beslisbomen te bouwen, Local Outlier Factor analyseert de lokale dichtheid, Autoencoders reconstrueren normale gegevens en rapporteren wat ze niet kunnen reproduceren. Er zijn globale uitschieters (temperatuur -10°C in de tropen), contextuele uitschieters (€1.000 uitgeven in een arme buurt), collectieve uitschieters (gesynchroniseerde pieken in het netwerkverkeer die wijzen op een aanval). Parallel met Gladwell: de '10.000 uur-regel' wordt betwist-Paul McCartney dixit 'veel bands hebben 10.000 uur in Hamburg gedaan zonder succes, theorie niet onfeilbaar'. Aziatisch wiskundig succes is niet genetisch maar cultureel: Chinees numeriek systeem intuïtiever, rijstteelt vereist constante verbetering vs. Westerse landbouw territoriale expansie. Echte toepassingen: Britse banken kunnen 18% potentiële verliezen terugwinnen via real-time detectie van anomalieën, productieprocessen detecteren microscopische defecten die menselijke inspecties zouden missen, gezondheidszorg valideert klinische onderzoeksgegevens met meer dan 85% gevoeligheid voor detectie van anomalieën. Laatste les: naarmate datawetenschap verschuift van het elimineren van uitschieters naar het begrijpen ervan, moeten we onconventionele carrières niet zien als anomalieën die moeten worden gecorrigeerd, maar als waardevolle trajecten die moeten worden bestudeerd.