Een model voor kunstmatige intelligentie trainen
Het trainen van modellen voor kunstmatige intelligentie is een van de meest complexe uitdagingen in de hedendaagse technologische ontwikkeling. Het effectief trainen van een model is veel meer dan een eenvoudige algoritmische kwestie en vereist een methodische en multidisciplinaire aanpak die gegevenswetenschap, domeinkennis en software-engineering integreert. Zoals James Luke aangeeft in zijn baanbrekende tekst'Beyond Algorithms: Delivering AI for Business', hangt het succes van een AI-implementatie veel meer af van gegevensbeheer en systemisch ontwerp dan van de algoritmen zelf. Het landschap verandert snel, met innovaties zoals het DeepSeek-R1-model dat kosten en toegankelijkheid opnieuw definieert.
De basis: gegevensverzameling en -beheer
Kwaliteit in plaats van kwantiteit
In tegenstelling tot wat vaak wordt gedacht, is de hoeveelheid gegevens niet altijd de bepalende factor voor succes. De kwaliteit en representativiteit van de gegevens zijn veel belangrijker. In deze context is het cruciaal om verschillende bronnen te integreren:
- Eigendomsgegevens: ethisch verzameld en geanonimiseerd door bestaande implementaties
- Geautoriseerde gegevens: Afkomstig van betrouwbare leveranciers die voldoen aan strenge kwaliteitsnormen
- Open bron datasets: zorgvuldig gecontroleerd om diversiteit en nauwkeurigheid te garanderen
- Synthetische gegevens: kunstmatig gegenereerd om leemten op te vullen en privacyproblemen op te lossen
Deze integratie creëert een uitgebreide trainingsbasis die realistische scenario's weergeeft en tegelijkertijd ethische en privacystandaarden handhaaft.
De uitdaging van gegevensvoorbereiding
Het proces van 'data wrangling' vertegenwoordigt tot 80 procent van de inspanning die nodig is voor kunstmatige intelligentieprojecten. Deze fase omvat:
- Gegevens opschonen: inconsistenties, duplicaten en uitschieters verwijderen
- Gegevenstransformatie: Conversie naar formaten die geschikt zijn voor verwerking
- Gegevensintegratie: Samenvoegen van verschillende bronnen die vaak incompatibele schema's en formaten gebruiken
- Omgaan met ontbrekende gegevens: strategieën zoals statistische imputatie of het gebruik van proxy-gegevens
Modelarchitectuur: juiste dimensionering
De keuze voor een modelarchitectuur moet worden bepaald door de specifieke aard van het op te lossen probleem en niet door persoonlijke neigingen of voorkeuren. Verschillende soorten problemen vereisen verschillende benaderingen:
- Op transformatoren gebaseerde taalmodellen voor taken die een diepgaand taalkundig begrip vereisen
- Convolutionele neurale netwerken voor beeld- en patroonherkenning
- Grafische neurale netwerken voor het analyseren van complexe relaties tussen entiteiten
- Versterkingsleren voor optimalisatie- en beslissingsproblemen
- Hybride architecturen die meerdere benaderingen combineren voor complexe gebruikssituaties
Architecturale optimalisatie vereist een systematische evaluatie tussen verschillende configuraties, met een focus op het balanceren van prestaties en rekenkundige eisen, een aspect dat nog relevanter is geworden met de komst van modellen zoals DeepSeek-R1 die geavanceerde redeneermogelijkheden bieden tegen aanzienlijk lagere kosten.
Geavanceerde trainingsmethoden
Model destillatie
Distillatie heeft zich ontpopt als een bijzonder krachtig hulpmiddel in het huidige AI-ecosysteem. Dit proces maakt het mogelijk om kleinere, specifiekere modellen te maken die de redeneercapaciteiten van grotere, complexere modellen erven, zoals DeepSeek-R1.
Zoals in het geval van DeepSeek, heeft het bedrijf zijn redeneercapaciteiten gedistilleerd op verschillende kleinere modellen, waaronder open-source modellen van Meta's Llama familie en Alibaba's Qwen familie. Deze kleinere modellen kunnen vervolgens worden geoptimaliseerd voor specifieke taken, wat de trend naar snelle en gespecialiseerde modellen versnelt.
Sam Witteveen, ontwikkelaar van machine learning, merkt op: "We beginnen een wereld binnen te gaan waarin mensen meerdere modellen gebruiken. Ze gebruiken niet altijd maar één model." Hieronder vallen ook goedkope gesloten modellen zoals Gemini Flash en GPT-4o Mini, die "zeer goed werken voor 80 procent van de use cases."
Multi-taak leren
In plaats van afzonderlijke modellen te trainen voor verwante vaardigheden, kunnen modellen dankzij multi-task learning kennis delen tussen verschillende functies:
- Modellen optimaliseren tegelijkertijd voor verschillende gerelateerde doelstellingen
- Basisfunctionaliteit profiteert van bredere blootstelling aan verschillende taken
- Prestaties verbeteren bij alle taken, vooral bij taken met beperkte gegevens
- Computerefficiëntie neemt toe door componenten te delen
Supervised fine-tuning (SFT)
Voor bedrijven die actief zijn in zeer specifieke domeinen, waar informatie niet algemeen beschikbaar is op het web of in de boeken die doorgaans worden gebruikt voor het trainen van taalmodellen, is supervised fine-tuning (SFT) een effectieve optie.
DeepSeek liet zien dat het mogelijk is om goede resultaten te behalen met 'duizenden' vraag- en antwoorddatasets. IBM-ingenieur Chris Hay liet bijvoorbeeld zien hoe hij een klein model opzette met zijn eigen wiskundespecifieke datasets en extreem snelle antwoorden verkreeg die de prestaties van OpenAI's o1-model op dezelfde taken overtroffen.
Versterking leren (RL)
Bedrijven die een model willen trainen dat verder is afgestemd op specifieke voorkeuren - bijvoorbeeld om een chatbot voor klantenservice empathisch maar beknopt te maken - zullen technieken voor reinforcement learning (RL) willen implementeren. Deze aanpak is vooral nuttig als een bedrijf wil dat zijn chatbot zijn toon en aanbevelingen aanpast op basis van feedback van gebruikers.
Retrieval-Augmented Generation (RAG)
Voor de meeste bedrijven is Retrieval-Augmented Generation (RAG) de eenvoudigste en veiligste route. Het is een relatief ongecompliceerd proces waarmee organisaties hun modellen kunnen verankeren met bedrijfseigen gegevens in hun databases, zodat de output nauwkeurig en domeinspecifiek is.
Deze aanpak helpt ook om enkele hallucinatieproblemen tegen te gaan die geassocieerd worden met modellen zoals DeepSeek, die momenteel in 14% van de gevallen hallucineren, vergeleken met 8% voor het o3-model van OpenAI, volgens een onderzoek uitgevoerd door Vectara.
De combinatie van modeldistillatie en RAG is waar de magie voor de meeste bedrijven ligt, en is ongelooflijk eenvoudig te implementeren, zelfs voor mensen met beperkte vaardigheden in datawetenschap of programmeren.
Evaluatie en verfijning: verder dan nauwkeurigheidsmetingen
Effectieve AI wordt niet alleen gemeten in termen van ruwe nauwkeurigheid, maar vereist een uitgebreid evaluatiekader dat rekening houdt met:
- Functionele nauwkeurigheid: Frequentie waarmee het model correcte resultaten produceert
- Robuustheid: Consistentie van prestaties met variërende invoer en omstandigheden
- Gelijkheid: Consistente prestaties bij verschillende gebruikersgroepen en scenario's
- Kalibratie: afstemming tussen vertrouwensscores en werkelijke nauwkeurigheid
- Efficiëntie: reken- en geheugenvereisten
- Uitlegbaarheid: Transparantie van besluitvormingsprocessen, een aspect waarin de gedistilleerde modellen van DeepSeek uitblinken door het tonen van hun redeneerproces.
De impact van de kostencurve
De meest directe impact van de release van DeepSeek is de agressieve prijsverlaging. De technologie-industrie verwachtte dat de kosten na verloop van tijd zouden dalen, maar weinigen voorzagen hoe snel dit zou gebeuren. DeepSeek toonde aan dat krachtige, open modellen zowel goedkoop als efficiënt kunnen zijn, waardoor mogelijkheden ontstaan voor wijdverspreide experimenten en kosteneffectieve implementatie.
Amr Awadallah, CEO van Vectara, benadrukte dit punt en merkte op dat het echte omslagpunt niet alleen de trainingskosten zijn, maar ook de inferentiekosten, die voor DeepSeek ongeveer 1/30e zijn van die van OpenAI's o1 of o3 modellen per inferentiekost per token. "De marges die OpenAI, Anthropic en Google Gemini hebben kunnen pakken, zullen nu met minstens 90 procent moeten worden verkleind, omdat ze niet concurrerend kunnen blijven met zulke hoge prijzen", aldus Awadallah.
En dat niet alleen, deze kosten zullen blijven dalen. Dario Amodei, CEO van Anthropic, verklaarde onlangs dat de kosten voor het ontwikkelen van modellen elk jaar ongeveer vier keer zo laag worden. Als gevolg daarvan zal het tarief dat LLM leveranciers in rekening brengen voor het gebruik ervan ook blijven dalen.
"Ik verwacht dat de kosten naar nul gaan", zegt Ashok Srivastava, CDO van Intuit, een bedrijf dat AI sterk heeft gestimuleerd in zijn belasting- en boekhoudsoftware zoals TurboTax en Quickbooks. "...en latentie zal naar nul gaan. Het worden gewoon basismogelijkheden die we kunnen gebruiken."
Conclusie: De toekomst van AI voor bedrijven is open, goedkoop en datagestuurd
OpenAI's DeepSeek en Deep Research zijn meer dan alleen nieuwe tools in het AI arsenaal - het zijn tekenen van een diepgaande verandering waarbij bedrijven massa's speciaal gebouwde modellen zullen inzetten die extreem kosteneffectief en competent zijn en geworteld in de eigen gegevens en aanpak van het bedrijf.
Voor bedrijven is de boodschap duidelijk: de tools om krachtige domeinspecifieke AI-toepassingen te bouwen zijn voorhanden. Je loopt het risico achterop te raken als je geen gebruik maakt van deze tools. Maar het echte succes zal komen van de manier waarop je gegevens verzamelt, technieken zoals RAG en distillatie gebruikt en innoveert voorbij de fase van pre-training.
Zoals Packer van AmEx het verwoordde: bedrijven die hun gegevens op de juiste manier beheren, zullen degenen zijn die de volgende innovatiegolf op het gebied van AI zullen leiden.


