Newsletter

Evolutie van LLM's: een kort overzicht van de markt

Minder dan 2 procentpunten scheiden de top LLM's op de belangrijkste benchmarks-de technologieoorlog eindigde in een gelijkspel. De echte 2025 strijd wordt uitgespeeld op ecosystemen, distributie en kosten: DeepSeek bewees dat het kan concurreren met $5.6M tegen $78-191M van GPT-4. ChatGPT domineert het merk (76% bekendheid) ondanks dat Claude 65% van de technische benchmarks wint. Voor bedrijven is de winnende strategie niet om 'het beste model' te kiezen, maar om complementaire modellen te orkestreren voor verschillende use cases.

De oorlog van taalmodellen 2025: van technische gelijkheid naar de strijd van ecosystemen

De ontwikkeling van grote taalmodellen heeft in 2025 een kritiek keerpunt bereikt: de competitie wordt niet langer uitgespeeld op de fundamentele mogelijkheden van de modellen - nu in essentie gelijkwaardig in de belangrijkste benchmarks - maar op ecosysteem, integratie en implementatiestrategie. Terwijl Anthropic's Claude Sonnet 4.5 smalle marges van technische superioriteit behoudt op specifieke benchmarks, is de echte strijd verschoven naar een ander terrein.

De technische loting: als de aantallen gelijk zijn

Benchmark MMLU (Massive Multitask Language Understanding)

  • Claude Sonnet 4.5: 88,7%.
  • GPT-4o: 88,0%.
  • Gemini 2.0 Flash: 86,9%.
  • DeepSeek-V3: 87,1%.

De verschillen zijn marginaal: minder dan 2 procentpunten scheiden de best presterende bedrijven. Volgens het AI Index Report 2025 van Stanford "vertegenwoordigt de convergentie van de kerncapaciteiten van taalmodellen een van de belangrijkste trends van 2024-2025, met ingrijpende gevolgen voor de concurrentiestrategieën van AI-bedrijven".

Redeneervaardigheden (GPQA Diamond)

  • Claude Sonnet 4: 65,0%.
  • GPT-4o: 53,6%.
  • Gemini 2.0 Pro: 59,1%.

Claude behoudt een aanzienlijk voordeel op complexe redeneertaken, maar GPT-4o blinkt uit in reactiesnelheid (gemiddelde latentie 1,2s vs Claude's 2,1s) en Gemini in native multimodale verwerking.

De DeepSeek-revolutie: De Chinese gamehanger

In januari 2025 deed DeepSeek-V3 zijn intrede, waarmee werd aangetoond hoe concurrerende modellen kunnen worden ontwikkeld met $ 5,6 miljoen tegenover $ 78-191 miljoen voor GPT-4/Gemini Ultra. Marc Andreessen noemde het 'een van de meest verbazingwekkende doorbraken en als open source een diepgaand geschenk aan de wereld'.

DeepSeek-V3 specificaties:

  • 671 miljard totale parameters (37B actief via Mixture-of-Experts)
  • Opleidingskosten: $5,576M
  • Prestaties: presteert beter dan GPT-4o op sommige wiskundige benchmarks
  • Architectuur: Multi-head Latente Aandacht (MLA) + DeepSeekMoE

De impact: Nvidia-aandelen 17% lager in één sessie na de aankondiging, omdat de markt de toetredingsdrempels voor modelontwikkeling herwaardeert.

Publieke perceptie vs. technische realiteit

ChatGPT behoudt zijn onbetwiste dominante merkbekendheid: uit onderzoek van Pew Research Center (februari 2025) blijkt dat 76% van de Amerikanen 'conversational AI' uitsluitend associeert met ChatGPT, terwijl slechts 12% Claude kent en 8% Gemini actief gebruikt.

Paradox: Claude Sonnet 4 verslaat GPT-4o op 65% technische benchmarks maar heeft slechts 8% marktaandeel voor consumenten vs. 71% ChatGPT (Similarweb-gegevens, maart 2025).

Google reageert met massale integratie: Gemini 2.0 native in Search, Gmail, Docs, Drive - strategie ecosysteem versus standalone product. 2,1 miljard gebruikers van Google Workspace vertegenwoordigen directe distributie zonder klantenwerving.

Computergebruik en -agenten: De volgende grens

Claude Computergebruik (bèta oktober 2024, productie Q1 2025)

  • Mogelijkheden: directe besturing met muis/toetsenbord, browsernavigatie, interactie met applicaties
  • Adoptie: 12% zakelijke klanten Antropisch computergebruik in productie
  • Beperkingen: nog steeds 14% uitval bij complexe taken met meerdere stappen

GPT-4o met visie en acties

  • Zapier-integratie: 6000+ aanstuurbare apps
  • Aangepaste GPT's: 3 miljoen gepubliceerd, 800K actief gebruikt
  • Inkomstenverdeling per maker GPT's: $10M verdeeld Q4 2024

Gemini Diep Onderzoek (januari 2025)

  • Autonoom multi-source onderzoek met benchmarking
  • Genereert volledige rapporten vanuit één prompt
  • Gemiddelde tijd: 8-12 minuten per rapport van meer dan 5000 woorden

Gartner voorspelt dat tegen het einde van 2025 33% van de kenniswerkers gebruik zal maken van autonome AI-agenten, tegenover 5% nu.

Filosofische verschillen over veiligheid

OpenAI: 'Veiligheid door beperking'-benadering

  • Weigert 8,7% prompt consument (interne OpenAI-lekgegevens)
  • Streng inhoudsbeleid zorgt ervoor dat 23% van de ontwikkelaars overstapt op alternatieven
  • Raamwerk voor paraatheid van het publiek met voortdurende red-teaming

Antropisch: 'Constitutionele AI

  • Model getraind op expliciete ethische principes
  • Selectieve afwijzing: 3,1% prompt (meer permissieve OpenAI)
  • Transparante besluitvorming: leg uit waarom verzoeken worden afgewezen

Google: 'Maximale veiligheid, minimale controverse'.

  • Strengere marktfilters: 11,2% prompt geblokkeerd
  • Tweelingen Beeldfout februari 2024 (bias overcorrectie) leidt tot extreme voorzichtigheid
  • Focus op de onderneming vermindert risicotolerantie

Meta Llama 3.1: nul ingebouwde filters, verantwoordelijkheid op implementator-tegenovergestelde filosofie.

Verticale specialisatie: de ware differentiator

Gezondheidszorg:

  • Med-PaLM 2 (Google): 85,4% op MedQA (vs. 77% beste menselijke artsen)
  • Claude in Epic Systems: overgenomen door 305 Amerikaanse ziekenhuizen voor ondersteuning van klinische beslissingen

Juridisch:

  • Harvey AI (GPT-4 aangepast): 102 top-100 advocatenkantoren, $100M ARR
  • CoCounsel (Thomson Reuters + Claude): 98% nauwkeurigheid juridisch onderzoek

Financiën:

  • Bloomberg GPT: getraind op 363B eigen financiële tokens
  • Goldman Sachs Marcus AI (GPT-4 basis): keurt leningen 40% sneller goed

Verticalisering genereert 3,5x betalingsbereidheid ten opzichte van generieke modellen (McKinsey-onderzoek, 500 zakelijke inkopers).

Llama 3.1: Meta's Open Source Strategie

405B-parameters, concurrerende mogelijkheden met GPT-4o op veel benchmarks, volledig open-gewichten. Metastrategie: infrastructuurlaag commoditiseren om te concurreren op productlaag (Ray-Ban Meta-bril, WhatsApp AI).

Adoptie Llama 3.1:

  • 350K+ downloads eerste maand
  • 50+ start-ups bouwen AI-verticals op Llama
  • Zelf beheerde hostingkosten: $12K/maand vs $50K+ API-kosten gesloten modellen voor gelijkwaardig gebruik

Contra-intuïtief: Meta verliest miljarden dollars aan Reality Labs maar investeert massaal in open AI om de kernactiviteiten van adverteren te beschermen.

Context Windows: de race om miljoenen tokens

  • Claude Sonnet 4.5: 200K lopers
  • Gemini 2.0 Pro: 2M penning (langste in de handel verkrijgbare penning )
  • GPT-4 Turbo: 128K lopers

Gemini 2M context maakt analyse mogelijk van volledige codebases, 10+ uur video, duizenden pagina's documentatie-gebruikssituaties die enterprise transformatief zijn. Google Cloud rapporteert dat 43% zakelijke POC's context >500K tokens gebruiken.

Aanpassingsvermogen en maatwerk

Claude Projecten & Stijlen:

  • Aangepaste persistente instructies voor kruisgesprekken
  • Voorkeursstijl: Formeel, Beknopt, Verklarend
  • Kennisbanken uploaden (tot 5 GB documenten)

GPT Store en aangepaste GPT's:

  • 3M GPT's gepubliceerd, 800K actief maandelijks gebruik
  • Topcreator verdient $63K/maand (inkomsten delen)
  • 71% van de ondernemingen gebruikt intern ≥1 aangepaste GPT

Gemini-uitbreidingen:

  • Integratie met Gmail, Agenda, Drive, Kaarten
  • Werkruimtecontext: leest e-mail+kalender voor proactieve suggesties
  • 1,2B werkplekacties uitgevoerd Q4 2024

Sleutel: 'enkele prompt' naar 'persistente assistent met geheugen en context cross-sessie'.

Ontwikkelingen Q1 2025 en toekomstige trajecten

Trend 1: Mixture-of-Experts DominantieAlletopmodellen van 2025 gebruiken MoE (activeren subset parameters per query):

  • Vermindering van inferentiekosten 40-60%.
  • Betere latentie met behoud van kwaliteit
  • DeepSeek, GPT-4, Gemini Ultra alle op MoE gebaseerd

Trend 2: MultimodaliteitNatuurlijk multimodaalGemini2.0 is van nature multimodaal (geen afzonderlijke gelijmde modules):

  • Gelijktijdig begrijpen van tekst+afbeeldingen+audio+video
  • Cross-modaal redeneren: "vergelijk bouwstijlfoto met tekstuele beschrijving historische periode".

Trend 3: Testtijd berekenen (redeneermodellen)OpenAI o1, DeepSeek-R1: gebruikt meer verwerkingstijd voor complexe redeneringen:

  • o1: 30-60s per complex wiskundig probleem vs. 2s GPT-4o
  • Nauwkeurigheid AIME 2024: 83,3% vs 13,4% GPT-4o
  • Expliciete afweging tussen latentie en nauwkeurigheid

Trend 4: Agentic WorkflowsModelContext Protocol (MCP) Anthropic, november 2024:

  • Open standaard voor AI-agenten voor interactie met tools/databases
  • 50+ adoptiepartners eerste 3 maanden
  • Stelt agenten in staat om persistente kruisinteracties 'geheugen' te bouwen

Kosten en prijsoorlogen

API-prijs voor 1M tokens (invoer):

  • GPT-4o: $2,50
  • Claude Sonnet 4: $3.00
  • Gemini 2.0 Flash: $0,075 (33x goedkoper)
  • DeepSeek-V3: $0,27 (open bron, hostingkosten)

Gemini Flash casestudy: startup AI-samenvatting verlaagt kosten 94% overstap van GPT-4o - zelfde kwaliteit, vergelijkbare latency

Commoditisatie versnelt: inferentiekosten -70% jaar-op-jaar 2023-2024 (gegevens Epoch AI).

Strategische gevolgen voor bedrijven

Beslissingskader: Welk model kiezen?

Scenario 1: Veiligheidskritisch bedrijf→Claude Sonnet 4

  • Gezondheidszorg, juridisch, financieel waar fouten miljoenen kosten
  • Constitutionele AI vermindert aansprakelijkheidsrisico's
  • Prijspremie gerechtvaardigd door risicobeperking

Scenario 2: Hoge volumes, kostengevoelig→Gemini Flash of DeepSeek

  • Chatbots voor klantenservice, inhoudsbeoordeling, classificatie
  • Prestaties 'goed genoeg', volume 10x-100x
  • Belangrijkste onderscheidende kosten

Scenario 3: Ecosysteem Lock-In→Gemini voor Google Workspace, GPT voor Microsoft

  • Al geïnvesteerd in ecosysteem
  • Native integratie > superieure marginale prestaties
  • Trainingskosten medewerkers op bestaand platform

Scenario 4: Aanpassen/Control→Llama 3.1 of DeepSeek open

  • Specifieke nalevingsvereisten (gegevensresidentie, audit)
  • Zware fine-tuning op bedrijfseigen gegevens
  • Economisch zelf hosten op volume

Conclusie: Van technologieoorlog naar platformoorlog

De LLM-competitie van 2025 is niet langer 'welk model redeneert het best', maar 'welk ecosysteem vangt de meeste waarde'. OpenAI domineert het consumentenmerk, Google maakt gebruik van de distributie onder miljarden gebruikers, Anthropic wint het van de veiligheidsbewuste onderneming en Meta commoditiseert de infrastructuur.

Voorspelling 2026-2027:

  • Verdere convergentie kernprestaties (~90% MMLU alle top-5)
  • Differentiatie op: snelheid, kosten, integraties, verticale specialisatie
  • Meerstaps autonome agenten worden mainstream (33% kenniswerkers)
  • Open source dicht kwaliteitskloof, behoudt kosten-/aanpassingsvoordeel

Uiteindelijke winnaar? Waarschijnlijk niet één speler, maar complementaire ecosystemen die verschillende use-case clusters bedienen. Zoals bij smartphone OS (iOS + Android bestaan naast elkaar), niet 'winner takes all' maar 'winner takes segment'.

Voor bedrijven: multi-model strategie wordt standaard - GPT voor generieke taken, Claude voor redeneren met hoge inzet, Gemini Flash voor volume, Llama op maat gemaakt voor bedrijfseigen.

2025 is niet het jaar van het 'beste model', maar van de intelligente orkestratie tussen complementaire modellen.

Bronnen:

  • Stanford AI Index-rapport 2025
  • Antropische Modelkaart Claude Sonnet 4.5
  • OpenAI GPT-4o Technisch Rapport
  • Google DeepMind Gemini 2.0-systeemkaart
  • Technisch artikel DeepSeek-V3 (arXiv)
  • Epoch AI - Trends in machinaal leren
  • Gartner AI & Analytics-top 2025
  • McKinsey-rapport over de staat van AI 2025
  • Pew Onderzoekscentrum AI-adoptieonderzoek
  • Similarweb Platform Intelligentie

Hulpmiddelen voor bedrijfsgroei