Deepseekの新しいチャットボットには、印象的な紹介があります。中国のスタートアップDeepSeekの製品であるこのAIは、すぐに主要なプレーヤーになり、Nvidiaの株価の大幅な低下さえも引き起こしています。

Deepseekの成功は、革新的なアーキテクチャとトレーニング方法に由来しています。重要なテクノロジーには次のものがあります。
- マルチトークン予測(MTP):単語を1つずつ予測する代わりに、MTPは複数の単語を同時に予測し、精度と効率を高めます。
- 専門家(MOE)の混合:このアーキテクチャは、DeepSeek V3で256のニューラルネットワークを利用しており、トークン処理タスクごとに8つをアクティブにし、トレーニングを大幅に加速し、パフォーマンスを改善します。
- マルチヘッド潜在的注意(MLA): MLAは、テキストフラグメントから重要な詳細を繰り返し抽出し、重要な情報を確実に見逃さず、入力データのより微妙な理解につながります。

DeepSeekは当初、2048 GPUを使用してDeepSeek V3で600万ドルのトレーニングコストが非常に低いと主張していましたが、Semianalysisは、はるかに重要なインフラストラクチャを明らかにしました。これは、サーバーの総投資額を約16億ドルで、運用費用は9億4,400万ドルと推定されています。
中国のヘッジファンド高飛行者の子会社であるDeepseekは、データセンターを所有しており、最適化とイノベーションの実施に対する比類のない管理を認めています。この自己資金によるアプローチは、柔軟性と意思決定速度を向上させます。さらに、同社はトップの才能を引き付け、一部の研究者は年間130万ドル以上を稼ぎ、主に中国の大学から募集しています。

Deepseekの600万ドルのトレーニングコスト請求は誤解を招くものです。これは、研究、洗練、データ処理、インフラストラクチャを除く、トレーニング前のGPU使用のみを反映しています。 AI開発への実際の投資は5億ドルを超えています。ただし、その無駄のない構造により、より大きく、より官僚的な組織と比較して、効率的なイノベーションの実装が可能になります。

Deepseekの物語は、資金提供された独立したAI会社が巨人と競争する能力を示しています。しかし、その成功は、投資、技術的なブレークスルー、強力なチームの数十億人に間違いなくリンクしています。 「革新的な予算」の物語は、重大な単純化です。それにもかかわらず、Deepseekのコストは競合他社よりも大幅に低いままです。たとえば、DeepseekはR1に500万ドルを費やしましたが、ChatGpt4の費用は1億ドルでした。