Новый чат -бот DeepSeek может похвастаться впечатляющим введением: «Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас». Этот ИИ, продукт китайского стартапа DeepSeek, быстро стал крупным игроком, даже вызывая значительные падения цен на акции Nvidia.

Успех DeepSeek проистекает из его инновационной архитектуры и методов обучения. Ключевые технологии включают:
- Multi-Token Production (MTP): вместо прогнозирования слов один за другим, MTP прогнозирует несколько слов одновременно, повышая точность и эффективность.
- Смесь экспертов (MOE): эта архитектура использует 256 нейронных сетей в DeepSeek V3, активируя восемь для каждой задачи обработки токенов, значительно ускоряя обучение и повышая производительность.
- Многопользовательское скрытое внимание (MLA): MLA неоднократно извлекает ключевые детали из фрагментов текста, что обеспечивает не пропущена важная информация, что приводит к более нюансированному пониманию входных данных.

В то время как DeepSeek первоначально потребовал удивительно низкую стоимость обучения в 6 миллионов долларов США для Deepseek V3, используя 2048 графических процессоров, полуанализ выявил гораздо более существенную инфраструктуру: приблизительно 50 000 графических процессоров Nvidia Hopper (включая 10 000 H800, 10 000 H100 и дополнительные H20s), распространяющиеся по нескольким центрам данных. Это составляет общие инвестиции в сервер в размере примерно 1,6 млрд. Долл. США, а эксплуатационные расходы оцениваются в 944 млн. Долл. США.
Deepseek, дочерняя компания китайского хедж-фонда, владеет своими центрами обработки данных, предоставляя беспрецедентный контроль над оптимизацией и внедрением инноваций. Этот самофинансируемый подход повышает гибкость и скорость принятия решений. Кроме того, компания привлекает лучших талантов, а некоторые исследователи зарабатывают более 1,3 миллиона долларов в год, в основном набираясь ведущих из ведущих китайских университетов.

Заявление о затратах на обучение DeepSeek в размере 6 миллионов долларов вводит в заблуждение; Он только отражает использование графического процессора предварительного обучения, исключая исследования, уточнение, обработку данных и инфраструктуру. Фактические инвестиции компании в развитие искусственного интеллекта превышают 500 миллионов долларов. Тем не менее, его бережливая структура позволяет эффективно внедрить инновации по сравнению с более крупными, более бюрократическими организациями.

История Deepseek демонстрирует способность хорошо финансируемой независимой компании ИИ конкурировать с гигантами. Его успех, однако, бесспорно связан с миллиардами инвестиций, технологических прорывов и сильной командой. Повествование «Революционный бюджет» является значительным упрощением. Тем не менее, затраты DeepSeek остаются значительно ниже, чем конкуренты. Например, Deepseek потратил 5 миллионов долларов на R1, а Catgpt4 стоил 100 миллионов долларов.