DeepSeek的新聊天機器人擁有令人印象深刻的介紹:“嗨,我被創建了,您可以問任何東西,並得到一個甚至可能讓您感到驚訝的答案。”這種AI是中國初創公司DeepSeek的產物,迅速成為主要參與者,甚至導致Nvidia的股價大幅下降。

DeepSeek的成功源於其創新的建築和培訓方法。關鍵技術包括:
- 多語預測(MTP): MTP不是一個一個人預測多個單詞,而不是一一預測單詞,從而提高了準確性和效率。
- 專家的混合物(MOE):該體系結構利用了DeepSeek V3中的256個神經網絡,為每個令牌處理任務激活了8個神經網絡,可顯著加速培訓並提高性能。
- 多頭潛在註意力(MLA): MLA反復從文本片段中提取關鍵細節,確保不會錯過關鍵信息,從而更加細微地了解輸入數據。

儘管DeepSeek最初使用2048 GPU聲稱DeepSeek V3的培訓成本非常低,但半分析顯示出更為實質性的基礎設施:大約50,000個NVIDIA HOPPER GPU(包括10,000 H800s,10,000 H100S和其他H20S,以及其他HYS)遍布多個數據中心。這代表了一筆總額約16億美元的服務器投資,運營費用估計為9.44億美元。
DeepSeek是中國對沖基金高飛行員的子公司擁有其數據中心,授予對優化和創新實施的無與倫比的控制。這種自資助的方法提高了靈活性和決策速度。此外,該公司吸引了頂尖人才,一些研究人員每年收入超過130萬美元,主要是從領先的中國大學招募。

DeepSeek的600萬美元培訓成本索賠具有誤導性;它僅反映了訓練前的GPU使用情況,不包括研究,改進,數據處理和基礎架構。該公司對AI開發項目的實際投資超過5億美元。但是,與更大的官僚組織相比,其精益結構允許有效的創新實施。

DeepSeek的故事展示了一家資金充足的獨立AI公司與巨人競爭的能力。但是,它的成功無疑與數十億美元的投資,技術突破和強大的團隊有關。 “革命預算”的敘述是一個重大的過度簡化。然而,DeepSeek的成本仍大大低於競爭對手。例如,DeepSeek在R1上花費了500萬美元,而Chatgpt4的費用為1億美元。