De nieuwe Chatbot van Deepseek heeft een indrukwekkende introductie: "Hallo, ik ben gemaakt zodat je alles kunt vragen en een antwoord kunt krijgen dat je misschien zelfs zou verrassen." Deze AI, een product van de Chinese startup Deepseek, is snel een belangrijke speler geworden en veroorzaakt zelfs aanzienlijke dalingen in de aandelenkoers van Nvidia.

Het succes van Deepseek komt voort uit zijn innovatieve architectuur- en trainingsmethoden. Belangrijkste technologieën zijn onder meer:
- Multi-Token Prediction (MTP): in plaats van woorden een voor een te voorspellen, voorspelt MTP meerdere woorden tegelijkertijd, waardoor de nauwkeurigheid en efficiëntie een boost is.
- Mix van experts (MOE): deze architectuur maakt gebruik van 256 neurale netwerken in Deepseek V3, waarbij acht worden geactiveerd voor elke tokenverwerkingstaak, het aanzienlijk versnellen van training en het verbeteren van de prestaties.
- Multi-head latente aandacht (MLA): MLA haalt herhaaldelijk belangrijke details uit tekstfragmenten uit, waardoor cruciale informatie niet wordt gemist, wat leidt tot een meer genuanceerd begrip van invoergegevens.

Terwijl Deepseek aanvankelijk een opmerkelijk lage trainingskosten van $ 6 miljoen claimde voor Deepseek V3 met behulp van 2048 GPU's, onthulde Semianalysis een veel meer substantiële infrastructuur: ongeveer 50.000 Nvidia Hopper GPU's (inclusief 10.000 H800s, 10.000 H100s en aanvullende H20's) over meerdere datacacten. Dit vertegenwoordigt een totale serverinvestering van ongeveer $ 1,6 miljard, met operationele kosten geschat op $ 944 miljoen.
Deepseek, een dochteronderneming van het Chinese hedgefonds High-Flyer, bezit zijn datacenters en geeft een ongeëvenaarde controle over optimalisatie en implementatie van innovatie. Deze zelf gefinancierde aanpak verbetert de flexibiliteit en de besluitvormingssnelheid. Bovendien trekt het bedrijf toptalent aan, met sommige onderzoekers die jaarlijks meer dan $ 1,3 miljoen verdienen, voornamelijk aan het werven van toonaangevende Chinese universiteiten.

De claim van Deepseek's $ 6 miljoen trainingskosten is misleidend; Het weerspiegelt alleen pre-training GPU-gebruik, exclusief onderzoek, verfijning, gegevensverwerking en infrastructuur. De werkelijke investering van het bedrijf in AI -ontwikkeling is groter dan $ 500 miljoen. De magere structuur maakt echter een efficiënte innovatie -implementatie mogelijk in vergelijking met grotere, meer bureaucratische organisaties.

Het verhaal van DeepSeek toont een goed gefinancierd onafhankelijk AI-bedrijf om te concurreren met reuzen. Het succes ervan is echter onmiskenbaar gekoppeld aan miljarden investeringen, technologische doorbraken en een sterk team. Het verhaal "revolutionaire budget" is een aanzienlijke vereenvoudiging. Desalniettemin blijven de kosten van Deepseek aanzienlijk lager dan concurrenten. Deepseek besteedde bijvoorbeeld $ 5 miljoen aan R1, terwijl Chatgpt4 $ 100 miljoen kostte.