Newsletter

De illusie van redeneren: het debat dat de AI-wereld op zijn grondvesten doet schudden

Apple publiceert twee vernietigende artikelen - 'GSM-Symbolic' (oktober 2024) en 'The Illusion of Thinking' (juni 2025) - die aantonen hoe LLM faalt op kleine variaties van klassieke problemen (Toren van Hanoi, rivieroversteek): 'prestaties nemen af wanneer alleen numerieke waarden worden veranderd'. Nul succes bij complexe Toren van Hanoi. Maar Alex Lawsen (Open Philanthropy) antwoordt met "The Illusion of Thinking", waarin hij een falende methodologie demonstreert: mislukkingen waren limieten aan de uitvoer van tokens, geen ineenstorting van redeneringen, automatische scripts classificeerden gedeeltelijk correcte uitvoer verkeerd, sommige puzzels waren wiskundig onoplosbaar. Door tests te herhalen met recursieve functies in plaats van zetten op te sommen, losten Claude/Gemini/GPT de Toren van Hanoi 15 records op. Gary Marcus omarmt Apple-these over 'distributieverschuiving', maar pre-WWDC timing paper roept strategische vragen op. Zakelijke implicaties: hoeveel vertrouwen in AI voor kritieke taken? Oplossing: neurosymbolische benaderingen neurale netwerken voor patroonherkenning+taal, symbolische systemen voor formele logica. Voorbeeld: AI boekhouding begrijpt "hoeveel reiskosten?" maar SQL/berekeningen/belastingcontroles = deterministische code.
Fabio Lauria
Ceo & Oprichter van Electe‍
Wanneer AI-redeneren de realiteit ontmoet: de robot past de logische regel correct toe, maar identificeert de basketbal als een sinaasappel. Een perfecte metafoor voor hoe LLM's logische processen kunnen simuleren zonder echt inzicht te hebben.

De afgelopen maanden is er in de wereld van kunstmatige intelligentie een verhit debat ontstaan naar aanleiding van twee invloedrijke onderzoekspublicaties van Apple. Het eerste, GSM-Symbolic (oktober 2024) en het tweede, De illusie van denken (juni 2025), zetten vraagtekens bij de vermeende redeneercapaciteiten van Large Language Models en veroorzaakten gemengde reacties binnen de industrie.

Zoals al geanalyseerd in ons vorige artikel over "De illusie van vooruitgang: het simuleren van algemene kunstmatige intelligentie zonder het te bereiken".raakt de kwestie van kunstmatig redeneren de kern van wat we beschouwen als intelligentie in machines.

Wat Apple zegt

Onderzoekers van Apple voerden een systematische analyse uit op Large Reasoning Models (LRM) - modellen die gedetailleerde redeneersporen genereren voordat ze een antwoord geven. De resultaten waren verrassend en, voor velen, alarmerend.

Uitgevoerde tests

Het onderzoek onderwierp de meest geavanceerde modellen aan klassieke algoritmische puzzels zoals:

  • Toren van Hanoi: een wiskundige puzzel voor het eerst opgelost in 1957
  • Oversteken van rivieren: logische puzzels met specifieke beperkingen
  • GSM-Symbolische Benchmark: Variaties van wiskundige problemen op basisschoolniveau

Redeneren testen met klassieke puzzels: het probleem van de boer, de wolf, de geit en de kool is een van de logische puzzels die gebruikt worden in Apple's studies om het redeneervermogen van LLM's te beoordelen. De moeilijkheid ligt in het vinden van de juiste volgorde van kruisingen terwijl voorkomen wordt dat de wolf de geit opeet of dat de geit de kool opeet als hij alleen gelaten wordt. Een eenvoudige maar effectieve test om onderscheid te maken tussen algoritmisch begrip en het onthouden van patronen.

Controversiële resultaten

De resultaten toonden aan dat zelfs kleine veranderingen in de probleemformulering leiden tot significante variaties in prestaties, wat wijst op een zorgwekkende kwetsbaarheid in redeneren. Zoals gemeld in AppleInsider"de prestaties van alle modellen nemen af wanneer alleen de numerieke waarden in de GSM-Symbolic benchmarkvragen worden gewijzigd".

Het tegenoffensief: de illusie van denken

De reactie van de AI-gemeenschap liet niet lang op zich wachten. Alex Lawsen van Open Philanthropy, in samenwerking met Claude Opus van Anthropic, publiceerde een gedetailleerd weerwoord met de titel "De illusie van denken.waarin de methodologie en conclusies van het Apple onderzoek worden aangevochten.

De belangrijkste bezwaren

  1. Uitgangslimieten genegeerd: Veel mislukkingen die werden toegeschreven aan 'ineenstorting van de redenering' waren in werkelijkheid te wijten aan modeluitgangslimieten.
  2. Onjuiste evaluatie: automatische scripts classificeerden ook gedeeltelijke maar algoritmisch correcte uitvoer als totale mislukking.
  3. Onmogelijke problemen: Sommige puzzels waren wiskundig onoplosbaar, maar modellen werden gestraft voor het niet oplossen ervan.

Bevestigingstesten

Toen Lawsen de tests herhaalde met alternatieve methodes - door de modellen te vragen recursieve functies te genereren in plaats van alle zetten op te sommen - waren de resultaten dramatisch anders. Modellen als Claude, Gemini en GPT losten Toren van Hanoi problemen met 15 records correct op, ver voorbij de complexiteit waarbij Apple nul successen rapporteerde.

Gezaghebbende stemmen in het debat

Gary Marcus: de historische criticus

Gary Marcuseen lange tijd criticus van de redeneervaardigheden van LLM's, omarmde de bevindingen van Apple als een bevestiging van zijn 20-jarige thesis. Volgens Marcus blijven LLM's worstelen met 'distributieverschuiving' - het vermogen om te generaliseren buiten de trainingsgegevens om - terwijl ze 'goede oplossers blijven van problemen die al zijn opgelost'.

De LocalLlama Gemeenschap

De discussie heeft zich ook verspreid naar gespecialiseerde gemeenschappen zoals LocalLlama op Redditwaar ontwikkelaars en onderzoekers debatteren over de praktische implicaties voor open-source modellen en lokale implementatie.

De controverse voorbij: wat betekent dit voor bedrijven?

Strategische implicaties

Dit debat is niet louter academisch. Het heeft directe gevolgen voor:

  • AI-inzet in productie: In hoeverre kunnen we modellen vertrouwen voor kritieke taken?
  • R&D-investeringen: Waar moeten we onze middelen op richten voor de volgende doorbraak?
  • Communicatie met belanghebbenden: Hoe realistische verwachtingen van AI-capaciteiten managen?

De neurosymbolische weg

Zoals benadrukt in verschillende technische inzichtenis er een toenemende behoefte aan hybride benaderingen die:

  • Neurale netwerken voor patroonherkenning en taalbegrip
  • Symbolische systemen voor algoritmisch redeneren en formele logica

Triviaal voorbeeld: een AI-assistent die helpt met boekhouden. Het taalmodel begrijpt wanneer je vraagt "hoeveel heb ik deze maand uitgegeven aan reizen?" en haalt de relevante parameters eruit (categorie: reizen, periode: deze maand). Maar de SQL-query die de database bevraagt, de som berekent en de fiscale beperkingen controleert? Dat wordt gedaan door deterministische code, niet door het neurale model.

Timing en strategische context

Het is waarnemers niet ontgaan dat het Apple-paper kort voor WWDC werd gepubliceerd, wat vragen oproept over de strategische beweegredenen. Zoals deanalyse van 9to5Mac"De timing van de Apple paper - vlak voor WWDC - deed een paar wenkbrauwen fronsen. Was dit een mijlpaal in het onderzoek of een strategische zet om Apple opnieuw te positioneren in het bredere AI-landschap?"

Lessen voor de toekomst

Voor onderzoekers

  • Experimenteel ontwerp: Het belang van onderscheid maken tussen architecturale beperkingen en implementatiebeperkingen
  • Strenge evaluatie: de behoefte aan geavanceerde benchmarks die cognitieve capaciteiten scheiden van praktische beperkingen
  • Methodologische transparantie: de verplichting om experimentele opzet en beperkingen volledig te documenteren

Voor bedrijven

  • Realistische verwachtingen: huidige grenzen erkennen zonder toekomstig potentieel op te geven
  • Hybride benaderingen: investeren in oplossingen die de sterke punten van verschillende technologieën combineren
  • Continue evaluatie: testsystemen implementeren die realistische gebruiksscenario's weerspiegelen

Conclusies: Navigeren door onzekerheid

Het debat dat op gang is gebracht door de documenten van Apple herinnert ons eraan dat we nog maar aan het begin staan van het begrijpen van kunstmatige intelligentie. Zoals aangegeven in ons vorig artikelblijft het onderscheid tussen simulatie en authentiek redeneren een van de meest complexe uitdagingen van onze tijd.

De echte les is niet of LLM's al dan niet kunnen 'redeneren' in de menselijke betekenis van het woord, maar eerder hoe we systemen kunnen bouwen die hun sterke punten uitbuiten en tegelijkertijd hun beperkingen compenseren. In een wereld waarin AI al hele sectoren transformeert, is de vraag niet langer of deze hulpmiddelen 'slim' zijn, maar hoe we ze effectief en verantwoord kunnen gebruiken.

De toekomst van ondernemings-AI ligt waarschijnlijk niet in één revolutionaire benadering, maar in de intelligente orkestratie van verschillende complementaire technologieën. En in dit scenario wordt het vermogen om de mogelijkheden van onze tools kritisch en eerlijk te evalueren zelf een concurrentievoordeel.

Voor inzicht in de AI-strategie van je organisatie en de implementatie van robuuste oplossingen is ons team van experts beschikbaar voor consultaties op maat.

Bronnen en referenties:

Hulpmiddelen voor bedrijfsgroei