De onzichtbare industrie die ChatGPT, Stable Diffusion en elk ander modern AI-systeem mogelijk maakt
Als je ChatGPT gebruikt om een e-mail te schrijven of een afbeelding genereert met Midjourney, denk je zelden na over wat er achter de 'magie' van kunstmatige intelligentie schuilgaat. Maar achter elk intelligent antwoord en elke gegenereerde afbeelding schuilt een miljardenindustrie waar maar weinig mensen over praten: de markt voor AI-trainingsgegevens.
Deze sector, die volgens MarketsandMarkets tegen 2029 9,58 miljard dollar zal bedragen met een groeipercentage van 27,7 procent per jaar, is de echte motor van de moderne kunstmatige intelligentie. Maar hoe werkt deze verborgen business precies?
Een paar bedrijven domineren de wereld van AI-trainingsgegevens waar de meeste mensen nog nooit van hebben gehoord:
Scale AI, het grootste bedrijf in de sector met een marktaandeel van 28%, werd onlangs gewaardeerd op 29 miljard dollar na de investering van Meta. Hun zakelijke klanten betalen tussen $100.000 en enkele miljoenen dollars per jaar voor gegevens van hoge kwaliteit.
Appen, gevestigd in Australië, heeft een wereldwijd netwerk van meer dan 1 miljoen specialisten in 170 landen die handmatig gegevens taggen en cureren voor AI. Bedrijven als Airbnb, John Deere en Procter & Gamble gebruiken hun diensten om hun AI-modellen te 'leren'.
Parallel hieraan is er een open source ecosysteem dat wordt geleid door organisaties zoals LAION (Large-scale Artificial Intelligence Open Network), een Duitse non-profit organisatie die LAION-5B creëerde, de dataset van 5,85 miljard beeld-tekstparen die Stable Diffusion mogelijk maakte.
Common Crawl geeft maandelijks terabytes aan ruwe webgegevens vrij die worden gebruikt om GPT-3, LLaMA en vele andere taalmodellen te trainen.
Wat het publiek niet weet, is hoe duur het is geworden om een modern AI-model te trainen. Volgens Epoch AI zijn de kosten de afgelopen acht jaar 2 tot 3 keer per jaar gestegen.
Het meest verrassende cijfer? Volgens AltIndex.com zijn de opleidingskosten voor AI sinds 2020 met 4.300% gestegen.
Een van de meest controversiële kwesties betreft het gebruik van auteursrechtelijk beschermd materiaal. In februari 2025 oordeelde de rechtbank in Delaware in de zaak Thomson Reuters v. ROSS Intelligence dat AI-training een directe inbreuk op auteursrecht kan vormen, waarbij de 'fair use'-verdediging werd verworpen.
Het Amerikaanse Copyright Office heeft een 108 pagina's tellend rapport gepubliceerd waarin wordt geconcludeerd dat bepaald gebruik niet kan worden verdedigd als fair use, wat de weg vrijmaakt voor mogelijk enorme licentiekosten voor AI-bedrijven.
Uit een onderzoek van de MIT Technology Review is gebleken dat DataComp CommonPool, een van de meest gebruikte datasets, miljoenen afbeeldingen van paspoorten, creditcards en geboortebewijzen bevat. Met meer dan 2 miljoen downloads in de afgelopen twee jaar roept dit enorme privacyproblemen op.
Experts voorspellen dat tegen 2028 het merendeel van de door mensen gegenereerde openbare tekst die online beschikbaar is, zal worden gebruikt. Dit 'piekgegevens'-scenario drijft bedrijven naar innovatieve oplossingen:
De California AI Transparency Act verplicht bedrijven om datasets die gebruikt worden voor training openbaar te maken, terwijl de EU vergelijkbare eisen implementeert in de AI Act.
Voor bedrijven die AI-oplossingen willen ontwikkelen, is het cruciaal om dit ecosysteem te begrijpen:
De markt voor AI-trainingsgegevens is 9,58 miljard dollar waard en groeit jaarlijks met 27,7 procent. Deze onzichtbare industrie is niet alleen de motor van de moderne AI, maar vormt ook een van de grootste ethische en juridische uitdagingen van onze tijd.
In het volgende artikel zullen we onderzoeken hoe bedrijven deze wereld concreet kunnen betreden, met een praktische handleiding om te beginnen met het ontwikkelen van AI-oplossingen met behulp van de datasets en tools die vandaag beschikbaar zijn.
Voor degenen die nu meer willen weten, hebben we een gedetailleerde gids samengesteld met een stappenplan voor de implementatie, specifieke kosten en een complete tool stack - gratis te downloaden met een abonnement op newsletter.
Handige links om meteen aan de slag te gaan:
Technische bronnen:
Wacht niet op de 'AI-revolutie'. Creëer het. Over een maand kun je je eerste werkende model hebben, terwijl anderen nog aan het plannen zijn.