Chatbot baru Deepseek mempunyai pengenalan yang mengagumkan: "Hai, saya telah dicipta supaya anda boleh meminta apa -apa dan mendapatkan jawapan yang mungkin mengejutkan anda." AI ini, produk permulaan Cina Deepseek, dengan cepat menjadi pemain utama, bahkan menyebabkan penurunan yang ketara dalam harga saham Nvidia.

Kejayaan DeepSeek berpunca daripada kaedah seni bina dan latihan yang inovatif. Teknologi utama termasuk:
- Ramalan Multi-Token (MTP): Daripada meramalkan kata-kata satu demi satu, MTP meramalkan pelbagai perkataan secara serentak, meningkatkan ketepatan dan kecekapan.
- Campuran Pakar (MOE): Senibina ini menggunakan 256 rangkaian saraf di Deepseek V3, mengaktifkan lapan untuk setiap tugas pemprosesan token, mempercepatkan latihan dan meningkatkan prestasi.
- Perhatian Laten Multi-Head (MLA): MLA berulang kali mengekstrak butiran utama dari serpihan teks, memastikan maklumat penting tidak terlepas, yang membawa kepada pemahaman yang lebih nuanced mengenai data input.

Walaupun DeepSeek pada mulanya mendakwa kos latihan yang sangat rendah sebanyak $ 6 juta untuk DeepSeek V3 menggunakan 2048 GPU, semianalisis mendedahkan infrastruktur yang jauh lebih besar: kira -kira 50,000 GPU NVIDIA Hopper (termasuk 10,000 H800s, 10,000 H100s, dan H20s tambahan) menyebar di pelbagai pusat data. Ini mewakili jumlah pelaburan pelayan kira -kira $ 1.6 bilion, dengan perbelanjaan operasi dianggarkan sebanyak $ 944 juta.
DeepSeek, anak syarikat dana lindung nilai Cina yang tinggi, memiliki pusat datanya, memberikan kawalan yang tiada tandingannya terhadap pelaksanaan pengoptimuman dan inovasi. Pendekatan yang dibiayai sendiri ini meningkatkan kelajuan fleksibiliti dan membuat keputusan. Selain itu, syarikat itu menarik bakat terbaik, dengan beberapa penyelidik memperoleh lebih dari $ 1.3 juta setiap tahun, terutamanya merekrut dari universiti -universiti China yang terkemuka.

Tuntutan kos latihan DeepSeek $ 6 juta adalah mengelirukan; Ia hanya mencerminkan penggunaan GPU pra-latihan, tidak termasuk penyelidikan, penghalusan, pemprosesan data, dan infrastruktur. Pelaburan sebenar syarikat dalam pembangunan AI melebihi $ 500 juta. Walau bagaimanapun, struktur tanpa lemaknya membolehkan pelaksanaan inovasi yang cekap berbanding dengan organisasi birokrasi yang lebih besar dan lebih besar.

Kisah Deepseek menunjukkan keupayaan syarikat AI yang dibiayai dengan baik untuk bersaing dengan gergasi. Walau bagaimanapun, kejayaannya tidak dapat dinafikan dikaitkan dengan berbilion -bilion dalam pelaburan, kejayaan teknologi, dan pasukan yang kuat. Naratif "bajet revolusioner" adalah oversimplification yang ketara. Walau bagaimanapun, kos DeepSeek kekal jauh lebih rendah daripada pesaing. Sebagai contoh, DeepSeek membelanjakan $ 5 juta pada R1, manakala CHATGPT4 berharga $ 100 juta.