Newsletter

Evolutie van LLM's: een kort overzicht van de markt

Minder dan 2 procentpunten scheiden de top LLM's op de belangrijkste benchmarks-de technologieoorlog eindigde in een gelijkspel. De echte 2025 strijd wordt uitgespeeld op ecosystemen, distributie en kosten: DeepSeek bewees dat het kan concurreren met $5.6M tegen $78-191M van GPT-4. ChatGPT domineert het merk (76% bekendheid) ondanks dat Claude 65% van de technische benchmarks wint. Voor bedrijven is de winnende strategie niet om 'het beste model' te kiezen, maar om complementaire modellen te orkestreren voor verschillende use cases.

De oorlog van taalmodellen 2025: van technische gelijkheid naar de strijd van ecosystemen

De ontwikkeling van grote taalmodellen heeft in 2025 een kritiek keerpunt bereikt: de competitie wordt niet langer uitgespeeld op de fundamentele mogelijkheden van de modellen - nu in essentie gelijkwaardig in de belangrijkste benchmarks - maar op ecosysteem, integratie en implementatiestrategie. Terwijl Anthropic's Claude Sonnet 4.5 smalle marges van technische superioriteit behoudt op specifieke benchmarks, is de echte strijd verschoven naar een ander terrein.

De technische loting: als de aantallen gelijk zijn

Benchmark MMLU (Massive Multitask Language Understanding)

  • Claude Sonnet 4.5: 88,7%.
  • GPT-4o: 88,0%.
  • Gemini 2.0 Flash: 86,9%.
  • DeepSeek-V3: 87,1%.

De verschillen zijn marginaal: minder dan 2 procentpunten scheiden de best presterende bedrijven. Volgens het AI Index Report 2025 van Stanford "vertegenwoordigt de convergentie van de kerncapaciteiten van taalmodellen een van de belangrijkste trends van 2024-2025, met ingrijpende gevolgen voor de concurrentiestrategieën van AI-bedrijven".

Redeneervaardigheden (GPQA Diamond)

  • Claude Sonnet 4: 65,0%.
  • GPT-4o: 53,6%.
  • Gemini 2.0 Pro: 59,1%.

Claude behoudt een aanzienlijk voordeel op complexe redeneertaken, maar GPT-4o blinkt uit in reactiesnelheid (gemiddelde latentie 1,2s vs Claude's 2,1s) en Gemini in native multimodale verwerking.

De DeepSeek-revolutie: De Chinese gamehanger

In januari 2025 deed DeepSeek-V3 zijn intrede, waarmee werd aangetoond hoe concurrerende modellen kunnen worden ontwikkeld met $ 5,6 miljoen tegenover $ 78-191 miljoen voor GPT-4/Gemini Ultra. Marc Andreessen noemde het 'een van de meest verbazingwekkende doorbraken en als open source een diepgaand geschenk aan de wereld'.

DeepSeek-V3 specificaties:

  • 671 miljard totale parameters (37B actief via Mixture-of-Experts)
  • Opleidingskosten: $5,576M
  • Prestaties: presteert beter dan GPT-4o op sommige wiskundige benchmarks
  • Architectuur: Multi-head Latente Aandacht (MLA) + DeepSeekMoE

De impact: Nvidia-aandelen 17% lager in één sessie na de aankondiging, omdat de markt de toetredingsdrempels voor modelontwikkeling herwaardeert.

Publieke perceptie vs. technische realiteit

ChatGPT behoudt zijn onbetwiste dominante merkbekendheid: uit onderzoek van Pew Research Center (februari 2025) blijkt dat 76% van de Amerikanen 'conversational AI' uitsluitend associeert met ChatGPT, terwijl slechts 12% Claude kent en 8% Gemini actief gebruikt.

Paradox: Claude Sonnet 4 verslaat GPT-4o op 65% technische benchmarks maar heeft slechts 8% marktaandeel voor consumenten vs. 71% ChatGPT (Similarweb-gegevens, maart 2025).

Google reageert met massale integratie: Gemini 2.0 native in Search, Gmail, Docs, Drive - strategie ecosysteem versus standalone product. 2,1 miljard gebruikers van Google Workspace vertegenwoordigen directe distributie zonder klantenwerving.

Computergebruik en -agenten: De volgende grens

Claude Computergebruik (bèta oktober 2024, productie Q1 2025)

  • Mogelijkheden: directe besturing met muis/toetsenbord, browsernavigatie, interactie met applicaties
  • Adoptie: 12% zakelijke klanten Antropisch computergebruik in productie
  • Beperkingen: nog steeds 14% uitval bij complexe taken met meerdere stappen

GPT-4o met visie en acties

  • Zapier-integratie: 6000+ aanstuurbare apps
  • Aangepaste GPT's: 3 miljoen gepubliceerd, 800K actief gebruikt
  • Inkomstenverdeling per maker GPT's: $10M verdeeld Q4 2024

Gemini Diep Onderzoek (januari 2025)

  • Autonoom multi-source onderzoek met benchmarking
  • Genereert volledige rapporten vanuit één prompt
  • Gemiddelde tijd: 8-12 minuten per rapport van meer dan 5000 woorden

Gartner voorspelt dat tegen het einde van 2025 33% van de kenniswerkers gebruik zal maken van autonome AI-agenten, tegenover 5% nu.

Filosofische verschillen over veiligheid

OpenAI: 'Veiligheid door beperking'-benadering

  • Weigert 8,7% prompt consument (interne OpenAI-lekgegevens)
  • Streng inhoudsbeleid zorgt ervoor dat 23% van de ontwikkelaars overstapt op alternatieven
  • Raamwerk voor paraatheid van het publiek met voortdurende red-teaming

Antropisch: 'Constitutionele AI

  • Model getraind op expliciete ethische principes
  • Selectieve afwijzing: 3,1% prompt (meer permissieve OpenAI)
  • Transparante besluitvorming: leg uit waarom verzoeken worden afgewezen

Google: 'Maximale veiligheid, minimale controverse'.

  • Strengere marktfilters: 11,2% prompt geblokkeerd
  • Tweelingen Beeldfout februari 2024 (bias overcorrectie) leidt tot extreme voorzichtigheid
  • Focus op de onderneming vermindert risicotolerantie

Meta Llama 3.1: nul ingebouwde filters, verantwoordelijkheid op implementator-tegenovergestelde filosofie.

Verticale specialisatie: de ware differentiator

Gezondheidszorg:

  • Med-PaLM 2 (Google): 85,4% op MedQA (vs. 77% beste menselijke artsen)
  • Claude in Epic Systems: overgenomen door 305 Amerikaanse ziekenhuizen voor ondersteuning van klinische beslissingen

Juridisch:

  • Harvey AI (GPT-4 aangepast): 102 top-100 advocatenkantoren, $100M ARR
  • CoCounsel (Thomson Reuters + Claude): 98% nauwkeurigheid juridisch onderzoek

Financiën:

  • Bloomberg GPT: getraind op 363B eigen financiële tokens
  • Goldman Sachs Marcus AI (GPT-4 basis): keurt leningen 40% sneller goed

Verticalisering genereert 3,5x betalingsbereidheid ten opzichte van generieke modellen (McKinsey-onderzoek, 500 zakelijke inkopers).

Llama 3.1: Meta's Open Source Strategie

405B-parameters, concurrerende mogelijkheden met GPT-4o op veel benchmarks, volledig open-gewichten. Metastrategie: infrastructuurlaag commoditiseren om te concurreren op productlaag (Ray-Ban Meta-bril, WhatsApp AI).

Adoptie Llama 3.1:

  • 350K+ downloads eerste maand
  • 50+ start-ups bouwen AI-verticals op Llama
  • Zelf beheerde hostingkosten: $12K/maand vs $50K+ API-kosten gesloten modellen voor gelijkwaardig gebruik

Contra-intuïtief: Meta verliest miljarden dollars aan Reality Labs maar investeert massaal in open AI om de kernactiviteiten van adverteren te beschermen.

Context Windows: de race om miljoenen tokens

  • Claude Sonnet 4.5: 200K lopers
  • Gemini 2.0 Pro: 2M penning (langste in de handel verkrijgbare penning )
  • GPT-4 Turbo: 128K lopers

Gemini 2M context maakt analyse mogelijk van volledige codebases, 10+ uur video, duizenden pagina's documentatie-gebruikssituaties die enterprise transformatief zijn. Google Cloud rapporteert dat 43% zakelijke POC's context >500K tokens gebruiken.

Aanpassingsvermogen en maatwerk

Claude Projecten & Stijlen:

  • Aangepaste persistente instructies voor kruisgesprekken
  • Voorkeursstijl: Formeel, Beknopt, Verklarend
  • Kennisbanken uploaden (tot 5 GB documenten)

GPT Store en aangepaste GPT's:

  • 3M GPT's gepubliceerd, 800K actief maandelijks gebruik
  • Topcreator verdient $63K/maand (inkomsten delen)
  • 71% van de ondernemingen gebruikt intern ≥1 aangepaste GPT

Gemini-uitbreidingen:

  • Integratie met Gmail, Agenda, Drive, Kaarten
  • Werkruimtecontext: leest e-mail+kalender voor proactieve suggesties
  • 1,2B werkplekacties uitgevoerd Q4 2024

Sleutel: 'enkele prompt' naar 'persistente assistent met geheugen en context cross-sessie'.

Ontwikkelingen Q1 2025 en toekomstige trajecten

Trend 1: Mixture-of-Experts DominantieAlletopmodellen van 2025 gebruiken MoE (activeren subset parameters per query):

  • Vermindering van inferentiekosten 40-60%.
  • Betere latentie met behoud van kwaliteit
  • DeepSeek, GPT-4, Gemini Ultra alle op MoE gebaseerd

Trend 2: MultimodaliteitNatuurlijk multimodaalGemini2.0 is van nature multimodaal (geen afzonderlijke gelijmde modules):

  • Gelijktijdig begrijpen van tekst+afbeeldingen+audio+video
  • Cross-modaal redeneren: "vergelijk bouwstijlfoto met tekstuele beschrijving historische periode".

Trend 3: Testtijd berekenen (redeneermodellen)OpenAI o1, DeepSeek-R1: gebruikt meer verwerkingstijd voor complexe redeneringen:

  • o1: 30-60s per complex wiskundig probleem vs. 2s GPT-4o
  • Nauwkeurigheid AIME 2024: 83,3% vs 13,4% GPT-4o
  • Expliciete afweging tussen latentie en nauwkeurigheid

Trend 4: Agentic WorkflowsModelContext Protocol (MCP) Anthropic, november 2024:

  • Open standaard voor AI-agenten voor interactie met tools/databases
  • 50+ adoptiepartners eerste 3 maanden
  • Stelt agenten in staat om persistente kruisinteracties 'geheugen' te bouwen

Kosten en prijsoorlogen

API-prijs voor 1M tokens (invoer):

  • GPT-4o: $2,50
  • Claude Sonnet 4: $3.00
  • Gemini 2.0 Flash: $0,075 (33x goedkoper)
  • DeepSeek-V3: $0,27 (open bron, hostingkosten)

Gemini Flash casestudy: startup AI-samenvatting verlaagt kosten 94% overstap van GPT-4o - zelfde kwaliteit, vergelijkbare latency

Commoditisatie versnelt: inferentiekosten -70% jaar-op-jaar 2023-2024 (gegevens Epoch AI).

Strategische gevolgen voor bedrijven

Beslissingskader: Welk model kiezen?

Scenario 1: Veiligheidskritisch bedrijf→Claude Sonnet 4

  • Gezondheidszorg, juridisch, financieel waar fouten miljoenen kosten
  • Constitutionele AI vermindert aansprakelijkheidsrisico's
  • Prijspremie gerechtvaardigd door risicobeperking

Scenario 2: Hoge volumes, kostengevoelig→Gemini Flash of DeepSeek

  • Chatbots voor klantenservice, inhoudsbeoordeling, classificatie
  • Prestaties 'goed genoeg', volume 10x-100x
  • Belangrijkste onderscheidende kosten

Scenario 3: Ecosysteem Lock-In→Gemini voor Google Workspace, GPT voor Microsoft

  • Al geïnvesteerd in ecosysteem
  • Native integratie > superieure marginale prestaties
  • Trainingskosten medewerkers op bestaand platform

Scenario 4: Aanpassen/Control→Llama 3.1 of DeepSeek open

  • Specifieke nalevingsvereisten (gegevensresidentie, audit)
  • Zware fine-tuning op bedrijfseigen gegevens
  • Economisch zelf hosten op volume

Conclusie: Van technologieoorlog naar platformoorlog

De LLM-competitie van 2025 is niet langer 'welk model redeneert het best', maar 'welk ecosysteem vangt de meeste waarde'. OpenAI domineert het consumentenmerk, Google maakt gebruik van de distributie onder miljarden gebruikers, Anthropic wint het van de veiligheidsbewuste onderneming en Meta commoditiseert de infrastructuur.

Voorspelling 2026-2027:

  • Verdere convergentie kernprestaties (~90% MMLU alle top-5)
  • Differentiatie op: snelheid, kosten, integraties, verticale specialisatie
  • Meerstaps autonome agenten worden mainstream (33% kenniswerkers)
  • Open source dicht kwaliteitskloof, behoudt kosten-/aanpassingsvoordeel

Uiteindelijke winnaar? Waarschijnlijk niet één speler, maar complementaire ecosystemen die verschillende use-case clusters bedienen. Zoals bij smartphone OS (iOS + Android bestaan naast elkaar), niet 'winner takes all' maar 'winner takes segment'.

Voor bedrijven: multi-model strategie wordt standaard - GPT voor generieke taken, Claude voor redeneren met hoge inzet, Gemini Flash voor volume, Llama op maat gemaakt voor bedrijfseigen.

2025 is niet het jaar van het 'beste model', maar van de intelligente orkestratie tussen complementaire modellen.

Bronnen:

  • Stanford AI Index-rapport 2025
  • Antropische Modelkaart Claude Sonnet 4.5
  • OpenAI GPT-4o Technisch Rapport
  • Google DeepMind Gemini 2.0-systeemkaart
  • Technisch artikel DeepSeek-V3 (arXiv)
  • Epoch AI - Trends in machinaal leren
  • Gartner AI & Analytics-top 2025
  • McKinsey-rapport over de staat van AI 2025
  • Pew Onderzoekscentrum AI-adoptieonderzoek
  • Similarweb Platform Intelligentie

Hulpmiddelen voor bedrijfsgroei

9 november 2025

AI-regelgeving voor consumententoepassingen: hoe u zich kunt voorbereiden op de nieuwe regelgeving voor 2025

2025 markeert het einde van het 'Wilde Westen'-tijdperk van AI: AI Act EU operationeel vanaf augustus 2024 met AI-geletterdheidsverplichtingen vanaf 2 februari 2025, governance en GPAI vanaf 2 augustus. Californië loopt voorop met SB 243 (ontstaan na zelfmoord van Sewell Setzer, 14-jarige ontwikkelde emotionele relatie met chatbot) met een verbod op dwangmatige beloningssystemen, detectie van zelfmoordgedachten, elke 3 uur een herinnering 'ik ben geen mens', onafhankelijke openbare audits, boetes van 1000 dollar per overtreding. SB 420 vereist effectbeoordelingen voor 'geautomatiseerde beslissingen met een hoog risico' met het recht om in beroep te gaan tegen menselijke beoordeling. Echte handhaving: Noom haalde 2022 aan voor bots die zich voordeden als menselijke coaches, schikking $ 56 miljoen. Nationale trend: Alabama, Hawaii, Illinois, Maine, Massachusetts classificeren het niet aanmelden van AI-chatbots als schending van de UDAP. Drietrapsbenadering van risicokritieke systemen (gezondheidszorg/transport/energie): certificering vóór ingebruikname, transparante informatieverstrekking aan de consument, registratie voor algemene doeleinden en veiligheidstests. Lappendeken van regelgeving zonder federale pre-emption: bedrijven in meerdere staten moeten navigeren door verschillende vereisten. EU vanaf augustus 2026: gebruikers informeren over AI-interactie tenzij duidelijk, AI-gegenereerde inhoud gelabeld als machineleesbaar.
9 november 2025

Reguleren wat niet gemaakt wordt: riskeert Europa technologische irrelevantie?

Europa trekt slechts een tiende van de wereldwijde investeringen in kunstmatige intelligentie aan, maar beweert wel de wereldwijde regels te dicteren. Dit is het 'Brussels Effect' - regels opleggen op wereldschaal door middel van marktmacht zonder innovatie aan te jagen. De AI-wet wordt van kracht op een gespreid tijdschema tot 2027, maar multinationale technologiebedrijven reageren met creatieve ontwijkingsstrategieën: bedrijfsgeheimen inroepen om trainingsgegevens niet te hoeven onthullen, technisch conforme maar onbegrijpelijke samenvattingen produceren, zelfbeoordeling gebruiken om systemen te degraderen van 'hoog risico' naar 'minimaal risico', forumshoppen door te kiezen voor lidstaten met minder strenge controles. De paradox van extraterritoriaal auteursrecht: de EU eist dat OpenAI de Europese wetten naleeft, zelfs voor trainingen buiten Europa - een principe dat nog nooit eerder is voorgekomen in het internationaal recht. Het 'duale model' ontstaat: beperkte Europese versies versus geavanceerde wereldwijde versies van dezelfde AI-producten. Reëel risico: Europa wordt een 'digitaal fort', geïsoleerd van wereldwijde innovatie, met Europese burgers die toegang hebben tot inferieure technologieën. Het Hof van Justitie heeft in de kredietscoringszaak de verdediging tegen 'bedrijfsgeheimen' al verworpen, maar de interpretatieve onzekerheid blijft enorm - wat betekent 'voldoende gedetailleerde samenvatting' precies? Niemand weet het. Laatste onbeantwoorde vraag: creëert de EU een ethische derde weg tussen het Amerikaanse kapitalisme en de Chinese staatscontrole, of exporteert ze gewoon bureaucratie naar een gebied waar ze niet concurreert? Voor nu: wereldleider in AI-regulering, marginaal in de ontwikkeling ervan. Uitgebreid programma.
9 november 2025

Outliers: waar gegevenswetenschap en succesverhalen elkaar ontmoeten

Datawetenschap heeft het paradigma op zijn kop gezet: uitbijters zijn niet langer 'fouten die geëlimineerd moeten worden', maar waardevolle informatie die begrepen moet worden. Een enkele uitschieter kan een lineair regressiemodel volledig verstoren - de helling veranderen van 2 naar 10 - maar als je die uitschieter elimineert, kan dat betekenen dat je het belangrijkste signaal in de dataset kwijtraakt. Machine learning introduceert geavanceerde hulpmiddelen: Isolation Forest isoleert uitschieters door willekeurige beslisbomen te bouwen, Local Outlier Factor analyseert de lokale dichtheid, Autoencoders reconstrueren normale gegevens en rapporteren wat ze niet kunnen reproduceren. Er zijn globale uitschieters (temperatuur -10°C in de tropen), contextuele uitschieters (€1.000 uitgeven in een arme buurt), collectieve uitschieters (gesynchroniseerde pieken in het netwerkverkeer die wijzen op een aanval). Parallel met Gladwell: de '10.000 uur-regel' wordt betwist-Paul McCartney dixit 'veel bands hebben 10.000 uur in Hamburg gedaan zonder succes, theorie niet onfeilbaar'. Aziatisch wiskundig succes is niet genetisch maar cultureel: Chinees numeriek systeem intuïtiever, rijstteelt vereist constante verbetering vs. Westerse landbouw territoriale expansie. Echte toepassingen: Britse banken kunnen 18% potentiële verliezen terugwinnen via real-time detectie van anomalieën, productieprocessen detecteren microscopische defecten die menselijke inspecties zouden missen, gezondheidszorg valideert klinische onderzoeksgegevens met meer dan 85% gevoeligheid voor detectie van anomalieën. Laatste les: naarmate datawetenschap verschuift van het elimineren van uitschieters naar het begrijpen ervan, moeten we onconventionele carrières niet zien als anomalieën die moeten worden gecorrigeerd, maar als waardevolle trajecten die moeten worden bestudeerd.