


De afgelopen maanden is er in de wereld van kunstmatige intelligentie een verhit debat ontstaan naar aanleiding van twee invloedrijke onderzoekspublicaties van Apple. Het eerste, GSM-Symbolic (oktober 2024) en het tweede, De illusie van denken (juni 2025), zetten vraagtekens bij de vermeende redeneercapaciteiten van Large Language Models en veroorzaakten gemengde reacties binnen de industrie.
Zoals al geanalyseerd in ons vorige artikel over "De illusie van vooruitgang: het simuleren van algemene kunstmatige intelligentie zonder het te bereiken".raakt de kwestie van kunstmatig redeneren de kern van wat we beschouwen als intelligentie in machines.
Onderzoekers van Apple voerden een systematische analyse uit op Large Reasoning Models (LRM) - modellen die gedetailleerde redeneersporen genereren voordat ze een antwoord geven. De resultaten waren verrassend en, voor velen, alarmerend.
Het onderzoek onderwierp de meest geavanceerde modellen aan klassieke algoritmische puzzels zoals:

De resultaten toonden aan dat zelfs kleine veranderingen in de probleemformulering leiden tot significante variaties in prestaties, wat wijst op een zorgwekkende kwetsbaarheid in redeneren. Zoals gemeld in AppleInsider"de prestaties van alle modellen nemen af wanneer alleen de numerieke waarden in de GSM-Symbolic benchmarkvragen worden gewijzigd".
De reactie van de AI-gemeenschap liet niet lang op zich wachten. Alex Lawsen van Open Philanthropy, in samenwerking met Claude Opus van Anthropic, publiceerde een gedetailleerd weerwoord met de titel "De illusie van denken.waarin de methodologie en conclusies van het Apple onderzoek worden aangevochten.
Toen Lawsen de tests herhaalde met alternatieve methodes - door de modellen te vragen recursieve functies te genereren in plaats van alle zetten op te sommen - waren de resultaten dramatisch anders. Modellen als Claude, Gemini en GPT losten Toren van Hanoi problemen met 15 records correct op, ver voorbij de complexiteit waarbij Apple nul successen rapporteerde.
Gary Marcuseen lange tijd criticus van de redeneervaardigheden van LLM's, omarmde de bevindingen van Apple als een bevestiging van zijn 20-jarige thesis. Volgens Marcus blijven LLM's worstelen met 'distributieverschuiving' - het vermogen om te generaliseren buiten de trainingsgegevens om - terwijl ze 'goede oplossers blijven van problemen die al zijn opgelost'.
De discussie heeft zich ook verspreid naar gespecialiseerde gemeenschappen zoals LocalLlama op Redditwaar ontwikkelaars en onderzoekers debatteren over de praktische implicaties voor open-source modellen en lokale implementatie.
Dit debat is niet louter academisch. Het heeft directe gevolgen voor:
Zoals benadrukt in verschillende technische inzichtenis er een toenemende behoefte aan hybride benaderingen die:
Triviaal voorbeeld: een AI-assistent die helpt met boekhouden. Het taalmodel begrijpt wanneer je vraagt "hoeveel heb ik deze maand uitgegeven aan reizen?" en haalt de relevante parameters eruit (categorie: reizen, periode: deze maand). Maar de SQL-query die de database bevraagt, de som berekent en de fiscale beperkingen controleert? Dat wordt gedaan door deterministische code, niet door het neurale model.
Het is waarnemers niet ontgaan dat het Apple-paper kort voor WWDC werd gepubliceerd, wat vragen oproept over de strategische beweegredenen. Zoals deanalyse van 9to5Mac"De timing van de Apple paper - vlak voor WWDC - deed een paar wenkbrauwen fronsen. Was dit een mijlpaal in het onderzoek of een strategische zet om Apple opnieuw te positioneren in het bredere AI-landschap?"
Het debat dat op gang is gebracht door de documenten van Apple herinnert ons eraan dat we nog maar aan het begin staan van het begrijpen van kunstmatige intelligentie. Zoals aangegeven in ons vorig artikelblijft het onderscheid tussen simulatie en authentiek redeneren een van de meest complexe uitdagingen van onze tijd.
De echte les is niet of LLM's al dan niet kunnen 'redeneren' in de menselijke betekenis van het woord, maar eerder hoe we systemen kunnen bouwen die hun sterke punten uitbuiten en tegelijkertijd hun beperkingen compenseren. In een wereld waarin AI al hele sectoren transformeert, is de vraag niet langer of deze hulpmiddelen 'slim' zijn, maar hoe we ze effectief en verantwoord kunnen gebruiken.
De toekomst van ondernemings-AI ligt waarschijnlijk niet in één revolutionaire benadering, maar in de intelligente orkestratie van verschillende complementaire technologieën. En in dit scenario wordt het vermogen om de mogelijkheden van onze tools kritisch en eerlijk te evalueren zelf een concurrentievoordeel.
Voor inzicht in de AI-strategie van je organisatie en de implementatie van robuuste oplossingen is ons team van experts beschikbaar voor consultaties op maat.