Chatbot mới của Deepseek tự hào về phần giới thiệu ấn tượng: "Xin chào, tôi được tạo ra để bạn có thể hỏi bất cứ điều gì và nhận được câu trả lời thậm chí có thể làm bạn ngạc nhiên." AI này, một sản phẩm của công ty khởi nghiệp Trung Quốc Deepseek, đã nhanh chóng trở thành một người chơi chính, thậm chí gây ra sự sụt giảm đáng kể về giá cổ phiếu của NVIDIA.

Thành công của Deepseek bắt nguồn từ kiến trúc và phương pháp đào tạo sáng tạo. Công nghệ chính bao gồm:
- Dự đoán đa điểm (MTP): Thay vì dự đoán từng từ một, MTP dự báo đồng thời nhiều từ, tăng độ chính xác và hiệu quả.
- Hỗn hợp các chuyên gia (MOE): Kiến trúc này sử dụng 256 mạng thần kinh trong Deepseek V3, kích hoạt tám cho mỗi nhiệm vụ xử lý mã thông báo, tăng tốc đáng kể đào tạo và cải thiện hiệu suất.
- Sự chú ý tiềm ẩn đa đầu (MLA): MLA liên tục trích xuất các chi tiết chính từ các đoạn văn bản, đảm bảo thông tin quan trọng không bị bỏ lỡ, dẫn đến sự hiểu biết nhiều sắc thái hơn về dữ liệu đầu vào.

Trong khi Deepseek ban đầu tuyên bố chi phí đào tạo thấp đáng kể là 6 triệu đô la cho Deepseek V3 bằng GPU 2048, Semianalysis cho thấy cơ sở hạ tầng đáng kể hơn nhiều: khoảng 50.000 GPU phễu NVIDIA (bao gồm 10.000 H800, 10.000 H100 và H20 bổ sung) Điều này thể hiện tổng đầu tư của máy chủ khoảng 1,6 tỷ đô la, với chi phí hoạt động ước tính khoảng 944 triệu đô la.
Deepseek, một công ty con của Quỹ phòng hộ Trung Quốc Flyer cao, sở hữu các trung tâm dữ liệu của mình, cấp quyền kiểm soát vô song đối với việc thực hiện tối ưu hóa và đổi mới. Cách tiếp cận tự tài trợ này giúp tăng cường tính linh hoạt và tốc độ ra quyết định. Hơn nữa, công ty thu hút tài năng hàng đầu, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm, chủ yếu tuyển dụng từ các trường đại học hàng đầu Trung Quốc.

Yêu cầu chi phí đào tạo trị giá 6 triệu đô la của Deepseek là sai lệch; Nó chỉ phản ánh việc sử dụng GPU trước khi đào tạo, không bao gồm nghiên cứu, tinh chỉnh, xử lý dữ liệu và cơ sở hạ tầng. Đầu tư thực tế của công ty vào phát triển AI vượt quá 500 triệu đô la. Tuy nhiên, cấu trúc nạc của nó cho phép thực hiện đổi mới hiệu quả so với các tổ chức lớn hơn, quan liêu hơn.

Câu chuyện của Deepseek thể hiện khả năng cạnh tranh của công ty AI độc lập được tài trợ tốt. Tuy nhiên, thành công của nó không thể phủ nhận với hàng tỷ người đầu tư, đột phá công nghệ và một đội ngũ mạnh mẽ. Tường thuật "Ngân sách cách mạng" là một sự đơn giản hóa đáng kể. Tuy nhiên, chi phí của Deepseek vẫn thấp hơn đáng kể so với các đối thủ cạnh tranh. Ví dụ, Deepseek đã chi 5 triệu đô la cho R1, trong khi TATGPT4 có giá 100 triệu đô la.