Van het Aardbeienprobleem naar Model o1: Hoe OpenAI de tokenlimiet (gedeeltelijk) oploste
In de zomer van 2024 bracht een virale internetmeme 's werelds meest geavanceerde taalmodellen in verlegenheid: "Hoeveel 'r's' zitten er in het woord 'aardbei'?". Het juiste antwoord is drie, maar GPT-4o antwoordde koppig "twee". Een schijnbaar triviale fout die een fundamentele beperking van taalmodellen blootlegde: hun onvermogen om individuele letters binnen woorden te analyseren.
Op 12 september 2024 bracht OpenAI o1 uit - intern bekend onder de codenaam 'Strawberry' - het eerste model in een nieuwe serie 'redeneringsmodellen' die speciaal zijn ontworpen om dit soort beperkingen te overwinnen. En ja, de naam is geen toeval: zoals een onderzoeker van OpenAI bevestigde, slaagt o1 er eindelijk in om de 'r' in 'aardbei' correct te tellen.
Maar de oplossing is niet wat het oorspronkelijke artikel voorstelde. OpenAI 'leerde' het model niet om woorden letter voor letter te analyseren. In plaats daarvan ontwikkelde het een compleet andere aanpak: het model leren 'redeneren' voordat het antwoord geeft.
Het probleem blijft geworteld in tokenization - het fundamentele proces waarmee taalmodellen tekst verwerken. Zoals uitgelegd in een technisch artikel dat in mei 2025 in arXiv is gepubliceerd ('The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models'), zien de modellen woorden niet als letterreeksen maar als 'tokens' - eenheden van betekenis die zijn omgezet in getallen.
Als GPT-4 het woord "aardbei" verwerkt, verdeelt de tokenizer het in drie delen: [str][aw][berry], elk met een specifieke numerieke ID (496, 675, 15717). Voor het model is "aardbei" geen reeks van 10 letters maar een reeks van 3 numerieke tokens. Het is alsof hij een boek leest waarin elk woord wordt vervangen door een code en iemand hem vervolgens vraagt om de letters te tellen in een code die hij nog nooit opgeschreven heeft gezien.
Het probleem wordt nog groter bij samengestelde woorden. "Timekeeper" is opgesplitst in afzonderlijke tokens, waardoor het model de exacte positie van de letters niet kan bepalen zonder een expliciet redeneerproces. Fragmentatie beïnvloedt niet alleen het tellen van letters, maar ook het begrijpen van de interne structuur van woorden.
OpenAI o1 loste het probleem op een onverwachte manier op: in plaats van de tokenisatie aan te passen - wat technisch moeilijk is en de efficiëntie van het model in gevaar zou brengen - leerde het systeem om 'na te denken voordat het sprak' met behulp van een techniek die 'chain of thought reasoning' wordt genoemd.
Als je o1 vraagt hoeveel 'r's er in 'aardbei' zitten, geeft het model niet meteen antwoord. Het besteedt enkele seconden - soms zelfs minuten voor complexe vragen - aan het intern verwerken van een 'redeneerketen' die verborgen blijft voor de gebruiker. Dit proces stelt het in staat om:
Zoals OpenAI onderzoeker Noam Brown uitlegde in een reeks posts op X: "o1 is getraind met reinforcement learning om te 'denken' voordat het antwoordt via een eigen gedachteketen. Het model krijgt tijdens de training beloningen voor elke juiste stap in het redeneerproces, niet alleen voor het uiteindelijke juiste antwoord.
De resultaten zijn indrukwekkend maar kostbaar. In een kwalificatie-examen voor de Internationale Wiskunde Olympiade, loste o1 83% van de problemen correct op tegen 13% voor GPT-4o. Bij wetenschappelijke vragen op doctoraatsniveau bereikte het 78% nauwkeurigheid tegen 56% voor GPT-4o. Maar deze kracht heeft een prijs: o1 heeft 30+ seconden nodig om vragen te beantwoorden die GPT-4o in 3 seconden oplost en kost $15 per miljoen token tegenover $5 voor GPT-4o.
De techniek is niet magisch maar methodisch. Wanneer het een prompt ontvangt, genereert o1 intern een lange reeks 'gedachten' die niet aan de gebruiker worden getoond. Voor het 'r'-probleem in 'aardbei' zou het interne proces kunnen zijn:
"Eerst moet ik de woordstructuur begrijpen. Aardbei zou getoken kunnen worden als [str][aw][berry]. Om de 'r' te tellen, moet ik het volledige woord reconstrueren op tekenniveau. Str bevat: s-t-r (1 'r'). Aw bevat: a-w (0 'r'). Berry bevat: b-e-r-y (2 'r'). Totaal: 1+0+2 = 3 'r'. Ik controleer: aardbei = s-t-r-a-w-b-e-r-r-y. Ik tel de 'r': positie 3, positie 8, positie 9. Bevestigd: 3 'r's."
Deze interne redenering is opzettelijk verborgen. OpenAI verbiedt gebruikers expliciet om te proberen de gedachtegang van o1 te onthullen, door prompts te controleren en mogelijk de toegang in te trekken van degenen die deze regel overtreden. Het bedrijf noemt redenen van AI-veiligheid en concurrentievoordeel, maar de beslissing is bekritiseerd als een verlies van transparantie voor ontwikkelaars die met taalmodellen werken.
Ondanks de vooruitgang heeft o1 het probleem niet helemaal opgelost. Onderzoek gepubliceerd in Language Log in januari 2025 testte verschillende modellen op een complexere uitdaging: "Schrijf een alinea waarin de tweede letter van elke zin het woord 'CODE' vormt".
o1 standaard ($20/maand) faalde, omdat het ten onrechte de eerste letter van elk beginwoord als 'tweede letter' telde. o1-pro ($200/maand) loste het probleem op... na 4 minuten en 10 seconden 'nadenken'. DeepSeek R1, het Chinese model dat de markt opschudde in januari 2025, maakte dezelfde fout als o1 standaard.
Het fundamentele probleem blijft: de modellen zien tekst nog steeds door tokens, niet door letters. o1 heeft geleerd om deze beperking te "omzeilen" door redeneren, maar heeft het niet geëlimineerd. Zoals een onderzoeker opmerkte in Language Log: "Tokenisatie maakt deel uit van de essentie van wat taalmodellen zijn; voor elk fout antwoord is de verklaring precies 'nou ja, tokenisatie'".
Een belangrijk artikel gepubliceerd in arXiv in mei 2025 ('The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models') analyseert dit fenomeen vanuit een theoretisch perspectief. De onderzoekers creëerden 19 synthetische taken die redeneren op karakterniveau in gecontroleerde contexten isoleren en die aantonen dat deze vaardigheden plotseling en pas laat in de training naar boven komen.
Het onderzoek stelt voor dat het leren van karaktercompositie niet fundamenteel verschilt van het leren van gezond verstand-ontstaat door processen van 'conceptuele percolatie' wanneer het model een kritische massa van voorbeelden en verbanden bereikt.
De onderzoekers stellen een lichte architecturale aanpassing voor die redeneren op tekenniveau aanzienlijk verbetert, terwijl de inductieve voordelen van subwoordgebaseerde modellen behouden blijven. Deze aanpassingen blijven echter experimenteel en zijn niet geïmplementeerd in commerciële modellen.
Het geval van de aardbei leert ons een belangrijke les over de betrouwbaarheid van taalmodellen: het zijn probabilistische hulpmiddelen, geen deterministische rekenmachines. Zoals Mark Liberman opmerkte in Language Log: "Je moet voorzichtig zijn met het vertrouwen in de respons van welk huidig AI-systeem dan ook bij taken waarbij je dingen moet tellen".
Dit betekent niet dat modellen nutteloos zijn. Zoals een commentator opmerkte: "Het is niet omdat een kat de domme fout maakt om te schrikken van een komkommer dat we de kat niet moeten vertrouwen met de veel moeilijkere taak om knaagdieren uit het gebouw te houden". Taalmodellen zijn niet het juiste hulpmiddel als je systematisch letters wilt tellen, maar ze zijn uitstekend geschikt voor het automatisch verwerken van duizenden podcasts en het extraheren van namen van gasten en presentatoren.
Voor taken die absolute precisie vereisen - het landen van een ruimteschip op Mars, het berekenen van farmaceutische doseringen, het verifiëren van wettelijke naleving - blijven de huidige taalmodellen ontoereikend zonder menselijke supervisie of externe verificatie. Hun probabilistische aard maakt ze krachtig voor het matchen van patronen en creatief genereren, maar onbetrouwbaar voor taken waarbij fouten niet acceptabel zijn.
OpenAI verklaarde dat het van plan is te experimenteren met o1-modellen die "uren, dagen of zelfs weken redeneren" om hun redeneervermogen verder te vergroten. In december 2024 werd o3 aangekondigd (de naam o2 werd overgeslagen om handelsmerkconflicten met mobiele operator O2 te vermijden), en in maart 2025 werd de API van o1-pro, OpenAI's duurste AI-model tot nu toe, vrijgegeven voor een prijs van $150 per miljoen tokens aan input en $600 per miljoen aan output.
De richting is duidelijk: in plaats van modellen groter en groter te maken (schaalvergroting), investeert OpenAI in het langer laten 'denken' (testtijdrekenen). Deze aanpak kan energetisch en rekenkundig duurzamer zijn dan het trainen van steeds massievere modellen.
Maar een open vraag blijft: zijn deze modellen echt aan het 'redeneren' of simuleren ze gewoon het redeneren door middel van meer verfijnde statistische patronen? Uit onderzoek van Apple dat in oktober 2024 werd gepubliceerd, bleek dat modellen zoals o1 redeneerstappen uit hun eigen trainingsgegevens konden nabootsen. Door getallen en namen in wiskundige problemen te veranderen of gewoon hetzelfde probleem opnieuw uit te voeren, presteerden de modellen aanzienlijk slechter. Door vreemde, maar logisch irrelevante informatie toe te voegen, kelderden de prestaties voor sommige modellen met 65%.
Het aardbeienprobleem en de o1-oplossing onthullen zowel het potentieel als de inherente beperkingen van de huidige taalmodellen. OpenAI heeft laten zien dat modellen door gerichte training en extra verwerkingstijd bepaalde structurele beperkingen van tokenization kunnen overwinnen. Maar ze hebben het niet geëlimineerd - ze hebben het omzeild.
Voor gebruikers en ontwikkelaars is de praktische les duidelijk: begrijpen hoe deze systemen werken - wat ze goed doen en waar ze falen - is cruciaal om ze effectief te gebruiken. Taalmodellen zijn geweldige hulpmiddelen voor probabilistische taken, patroonmatching, creatief genereren en informatiesynthese. Maar voor taken die deterministische precisie vereisen - het berekenen, doorrekenen, verifiëren van specifieke feiten - blijven ze onbetrouwbaar zonder externe supervisie of aanvullende hulpmiddelen.
De naam 'Strawberry' zal blijven bestaan als een ironische herinnering aan deze fundamentele beperking: zelfs 's werelds meest geavanceerde AI-systemen kunnen struikelen over vragen die een zesjarige direct zou oplossen. Niet omdat ze dom zijn, maar omdat ze op een heel andere manier 'denken' dan wij - en misschien moeten we niet meer verwachten dat ze als mensen denken.
Bronnen: