Chatbot ใหม่ของ Deepseek มีการแนะนำที่น่าประทับใจ: "สวัสดีฉันถูกสร้างขึ้นเพื่อให้คุณสามารถถามอะไรก็ได้และรับคำตอบที่อาจทำให้คุณประหลาดใจ" AI นี้ซึ่งเป็นผลิตภัณฑ์ของ Deepseek เริ่มต้นของจีนได้กลายเป็นผู้เล่นหลักอย่างรวดเร็วแม้จะทำให้ราคาหุ้นของ Nvidia ลดลงอย่างมาก

ความสำเร็จของ Deepseek เกิดจากสถาปัตยกรรมที่เป็นนวัตกรรมและวิธีการฝึกอบรม เทคโนโลยีที่สำคัญ ได้แก่ :
- การทำนายแบบมัลติเทน (MTP): แทนที่จะทำนายคำทีละคน MTP คาดการณ์หลายคำพร้อมกันเพิ่มความแม่นยำและประสิทธิภาพ
- การผสมผสานของผู้เชี่ยวชาญ (MOE): สถาปัตยกรรมนี้ใช้เครือข่ายประสาท 256 แห่งใน Deepseek V3 โดยเปิดใช้งานแปดสำหรับงานประมวลผลโทเค็นแต่ละครั้งเร่งการฝึกอบรมและปรับปรุงประสิทธิภาพ
- ความสนใจแฝงหลายหัว (MLA): MLA แยกรายละเอียดที่สำคัญซ้ำ ๆ จากชิ้นส่วนข้อความเพื่อให้แน่ใจว่าข้อมูลสำคัญไม่พลาดนำไปสู่ความเข้าใจที่เหมาะสมยิ่งขึ้นของข้อมูลอินพุต

ในขณะที่ Deepseek เริ่มแรกอ้างว่ามีค่าใช้จ่ายในการฝึกอบรมที่ต่ำอย่างน่าทึ่งที่ $ 6 ล้านสำหรับ Deepseek V3 โดยใช้ GPU ในปี 2048 แต่ Semianalysis เปิดเผยโครงสร้างพื้นฐานที่สำคัญกว่า: GPU Nvidia Hopper ประมาณ 50,000 Nvidia (รวมถึง 10,000 H800s, 10,000 H100s และ H20 เพิ่มเติม) สิ่งนี้แสดงให้เห็นถึงการลงทุนเซิร์ฟเวอร์รวมประมาณ 1.6 พันล้านดอลลาร์โดยมีค่าใช้จ่ายในการดำเนินงานอยู่ที่ 944 ล้านดอลลาร์
Deepseek ซึ่งเป็น บริษัท ในเครือของกองทุนป้องกันความเสี่ยงของจีนที่มีการขับไล่สูงเป็นเจ้าของศูนย์ข้อมูลให้การควบคุมการเพิ่มประสิทธิภาพและการใช้นวัตกรรมที่ไม่มีใครเทียบ วิธีการที่ได้รับทุนด้วยตนเองนี้ช่วยเพิ่มความยืดหยุ่นและความเร็วในการตัดสินใจ นอกจากนี้ บริษัท ยังดึงดูดความสามารถสูงสุดโดยนักวิจัยบางคนมีรายได้มากกว่า 1.3 ล้านเหรียญสหรัฐต่อปีโดยส่วนใหญ่การสรรหาจากมหาวิทยาลัยชั้นนำของจีน

การเรียกร้องค่าใช้จ่ายการฝึกอบรม $ 6 ล้านของ Deepseek ทำให้เข้าใจผิด มันสะท้อนให้เห็นถึงการใช้งาน GPU ก่อนการฝึกอบรมไม่รวมการวิจัยการปรับแต่งการประมวลผลข้อมูลและโครงสร้างพื้นฐาน การลงทุนที่แท้จริงของ บริษัท ในการพัฒนา AI เกินกว่า $ 500 ล้าน อย่างไรก็ตามโครงสร้างแบบลีนช่วยให้สามารถใช้นวัตกรรมที่มีประสิทธิภาพเมื่อเทียบกับองค์กรที่มีขนาดใหญ่และมีระบบราชการมากขึ้น

เรื่องราวของ Deepseek แสดงให้เห็นถึงความสามารถของ บริษัท AI อิสระที่ได้รับการสนับสนุนอย่างดีในการแข่งขันกับยักษ์ใหญ่ อย่างไรก็ตามความสำเร็จของมันเชื่อมโยงอย่างปฏิเสธไม่ได้กับการลงทุนหลายพันล้านครั้งการพัฒนาทางเทคโนโลยีและทีมที่แข็งแกร่ง การเล่าเรื่อง "การปฏิวัติงบประมาณ" เป็นเรื่องสำคัญมาก อย่างไรก็ตามค่าใช้จ่ายของ Deepseek ยังคงต่ำกว่าคู่แข่งอย่างมีนัยสำคัญ ตัวอย่างเช่น Deepseek ใช้จ่าย $ 5 ล้านใน R1 ในขณะที่ CHATGPT4 มีราคา $ 100 ล้าน