De aankondiging van 'Aardbei" van OpenAI heeft de aandacht gevestigd op een fundamentele beperking van taalmodellen: hun onvermogen om individuele letters binnen woorden te analyseren. Deze zwakte onthult diepgaande aspecten over hoe ze werken.
Het probleem van tellen
Als ChatGPT wordt gevraagd om de 'r' in het woord 'aardbei' te tellen, heeft het model het vaak mis. Deze fout komt niet voort uit een gebrek aan intelligentie, maar uit de manier waarop taalmodellen tekst analyseren. Om te begrijpen waarom, moet je het concept van tokenisatie.
De wereld gezien door penningen
Taalmodellen zien woorden niet als reeksen letters, maar als 'tokens' - eenheden van betekenis omgezet in getallen. Het is alsof je een boek leest waarin elk woord wordt vervangen door een cijfercode. Het woord 'schoolboeken' wordt bijvoorbeeld opgesplitst in twee aparte tokens: 'school' en 'boeken'. Dit verklaart waarom het model moeite heeft om de 'o' in dit woord correct te tellen - het ziet het niet echt als een woord.
Een verhelderend voorbeeld
Stel je voor dat je een taal leert waarin het woord 'school' altijd wordt weergegeven door het getal '412'. Als iemand je zou vragen hoeveel 'o's' er in '412' zitten, zouden we niet in staat zijn om correct te antwoorden zonder het woord ooit volledig uitgeschreven te hebben gezien. Taalmodellen bevinden zich in een vergelijkbare situatie: ze verwerken betekenissen via getallen, zonder toegang tot de letterlijke samenstelling van woorden.
De uitdaging van samengestelde woorden
Het probleem wordt nog groter bij samengestelde woorden. Tijdwachter' is opgesplitst in afzonderlijke tokens, waardoor het voor het model moeilijk is om de exacte positie van de letters 'en' te bepalen. Deze fragmentatie beïnvloedt niet alleen het tellen van letters, maar ook het begrijpen van de interne woordstructuur.
De oplossing voor het aardbeienprobleem (misschien)
Dit toekomstige OpenAI model, Strawberry, moet deze beperking overwinnen door een innovatieve benadering van tekstverwerking te introduceren. In plaats van alleen te vertrouwen op traditionele tokenisatie, moet het model woorden kunnen analyseren op het niveau van individuele letters, waardoor nauwkeurigere tel- en analysebewerkingen mogelijk worden.
Implicaties voor de toekomst
Het belang van dit probleem gaat verder dan alleen het tellen van letters. Deze granulaire analysemogelijkheid zou het taalkundig begrip van AI-modellen aanzienlijk kunnen verbeteren, zodat ze problemen kunnen aanpakken die een gedetailleerde tekstanalyse op tekenniveau vereisen.
De geplande integratie van deze technologie zal een grote vooruitgang betekenen in de richting van taalmodellen die beter in staat zijn om te 'redeneren' over de fundamentele details van taal, en niet alleen over statistische patronen.


